← 返回论文列表

AnchorD:使用因子图的单目深度度量锚定
AnchorD: Metric Grounding of Monocular Depth Using Factor Graphs

作者: Simon Dorer, Martin Büchner, Nick Heppert 等4人
arXiv: 2605.02667v1
分类: cs.RO, cs.CV
📝 论文摘要
稠密且精确的深度估计对于机器人操作、抓取和导航至关重要,然而当前可用的深度传感器在透明、镜面及一般非朗伯表面上容易产生误差。为缓解这些误差,大规模单目深度估计方法提供了强大的结构先验,但其预测在度量单位上可能存在偏差或尺度错误,限制了其在机器人领域的直接应用。因此,本文提出一种无需训练的深度锚定框架,通过因子图优化将深度基础模型的单目深度估计先验锚定于原始传感器深度中。该方法执行逐块仿射对齐,在保留精细几何结构与不连续性的同时,将单目预测局部锚定于公制真实深度。为便于在挑战性真实场景下评估,我们引入一个包含非朗伯物体的大场景稠密真实深度基准数据集。该真实深度通过哑光反射喷涂与多相机融合获得,克服了以往数据集仅依赖基于CAD的物体标注的局限性。跨不同传感器与领域的广泛评估表明,该方法无需任何(重新)训练即可持续提升深度性能。我们将实现代码公开发布于 https://anchord.cs.uni-freiburg.de。

📊 核心分析

🎯 研究动机
- 现有深度传感器在**非朗伯表面(non-Lambertian surfaces)** (如透明、镜面)上容易产生错误,影响机器人操作、抓取和导航 - 大规模**单目深度估计(monocular depth estimation)** 方法能提供强结构先验,但其预测可能存在度量单位上的偏差或缩放错误,无法直接用于机器人 - 缺乏在复杂真实场景下包含非朗伯物体的密集场景级真实深度基准数据集,现有数据集多依赖仅物体CAD标注
🔧 核心方法
- 提出**AnchorD**,一种**无训练的训练无关(training-free)** 深度接地框架,通过**因子图优化(factor graph optimization)** 将深度基础模型的单目深度先验锚定到原始传感器深度 - 执行**逐块仿射对齐(patch-wise affine alignment)**,局部地将单目预测接地到度量真实深度,同时保留精细几何结构和场景不连续性 - 引入新的基准数据集,通过**无光反射喷雾(matte reflection spray)** 和**多相机融合(multi-camera fusion)** 获取包含非朗伯物体的密集场景真实深度
💡 核心创新
- **首创无训练框架**:无需任何重新训练,直接利用**因子图优化(factor graph optimization)** 将单目深度先验与传感器深度对齐,克服缩放和偏差问题 - **逐块仿射对齐(patch-wise affine alignment)**:在保留几何细节的同时局部接地度量尺度,优于全局缩放方法 - **基准数据集创新**:首次提供非朗伯表面密集场景级真实深度,采用喷雾和多相机融合,突破现有数据集仅依赖CAD标注的局限
🏆 总体贡献
- 为机器人提供可直接使用的**度量精确的度量深度(metric depth)**,无需重新训练即可跨不同传感器和领域一致提升深度性能 - 提出**AnchorD框架**,为单目深度估计与传感器深度融合提供灵活、高效的范式 - 开源实现和基准数据集,促进社区在非朗伯表面深度估计和机器人应用方向的进一步研究