该论文旨在解决密集视觉里程计(dense visual odometry)领域的一个关键问题:如何同时实现实时高频位姿估计和高精度密集三维重建。研究背景是:
- 前馈模型(feed-forward models)在密集建图方面表现出色,但计算负担重,难以在视觉SLAM系统中实现实时位姿估计。
- 传统稀疏方法计算效率高、能提供高频位姿输出,但缺乏密集重建能力。
论文提出了HyVGGT-VO框架,具体方法包括:
- 紧密耦合(tightly coupled)传统稀疏视觉里程计框架与最先进的前馈模型VGGT。
- 设计自适应混合跟踪前端(adaptive hybrid tracking frontend),根据场景动态切换传统光流(traditional optical flow)和VGGT跟踪头(VGGT tracking head)以确保鲁棒性。
- 引入分层优化框架(hierarchical optimization framework),联合优化视觉里程计位姿和VGGT预测的尺度,确保全局尺度一致性(global scale consistency)。
论文的核心创新点在于:
- 首次将传统视觉里程计框架与最先进的前馈模型VGGT进行紧密耦合(tightly coupled),实现了计算效率与重建能力的优势互补。
- 提出的自适应混合跟踪机制,通过动态切换策略,在保证跟踪鲁棒性的同时显著提升了处理速度。
- 分层优化框架解决了前馈模型预测的尺度漂移问题,通过联合优化确保了整个系统的尺度一致性。
论文对该领域的整体贡献包括:
- 提出了一个新颖的混合框架,在保持密集重建能力的同时,将处理速度提升了约5倍。
- 在室内EuRoC数据集上平均轨迹误差降低了85%,在室外KITTI基准上降低了12%,显著提升了精度。
- 为密集视觉里程计领域提供了一种新的研究范式,即通过紧密耦合传统方法与深度学习模型来突破性能瓶颈。