该论文旨在解决越野自主导航中可靠3D感知的问题。研究背景是:在具有挑战性的非结构化地形中,需要可靠的障碍物检测。虽然激光雷达(LiDAR)精度高,但成本高昂且功耗大。使用基础模型(foundation models)的单目深度估计(monocular depth estimation)提供了一种轻量级替代方案,但其在户外导航系统中的集成应用仍未得到充分探索。
论文提出了一个开源的越野导航系统,支持激光雷达(LiDAR)和单目(monocular)3D感知,无需特定任务训练。对于单目配置,核心方法包括:
• 结合零样本深度预测(zero-shot depth prediction)(使用Depth Anything V2模型)与使用稀疏同步定位与地图构建(SLAM)测量(VINS-Mono)进行度量深度重缩放(metric depth rescaling)。
• 引入了两项关键增强以提高鲁棒性:边缘掩码(edge-masking)以减少障碍物幻觉(obstacle hallucination),以及时间平滑(temporal smoothing)以减轻SLAM不稳定的影响。
• 将生成的点云(point cloud)用于创建以机器人为中心的2.5D高程图(elevation map),以进行基于代价地图(costmap)的路径规划。
• 在照片级真实感模拟(Isaac Sim)和真实世界非结构化环境中进行评估。
论文的核心创新点在于:
• 首次系统性地将基于基础模型(foundation model)的零样本单目深度估计(zero-shot monocular depth estimation)集成到一个完整的、开源的越野自主导航系统中,作为激光雷达(LiDAR)的可行替代方案。
• 提出了一种新颖的集成方法,将Depth Anything V2的预测与VINS-Mono的稀疏SLAM测量相结合,实现了无需特定任务训练的度量深度估计。
• 设计了针对越野导航场景的特定增强技术:边缘掩码(edge-masking)和时间平滑(temporal smoothing),有效解决了单目深度估计中常见的障碍物幻觉(obstacle hallucination)和SLAM不稳定性问题,显著提升了系统的鲁棒性。
• 与现有工作相比,该方案避免了昂贵的传感器和针对特定环境的数据收集与模型训练,提供了一个即插即用、成本效益高的解决方案。
论文对该领域的整体贡献包括:
• 开发并开源了一个完整的越野导航系统,无缝支持激光雷达(LiDAR)和基于基础模型的单目感知两种模式,为社区提供了一个实用的工具和基准。
• 通过详实的实验(模拟与真实世界)证明,在大多数场景下,其单目配置的性能可与高分辨率激光雷达(LiDAR)相媲美,验证了基于基础模型的单目深度估计在越野导航中的可行性。
• 开源了导航系统代码和仿真环境,为越野导航研究提供了一个完整的、可复现的管道(pipeline)和基准测试平台(benchmark),促进了该领域的可重复研究和进一步发展。