该论文旨在解决基于单目相机的3D高斯泼溅(Gaussian Splatting) SLAM系统存在的三个关键问题:
- 时间效率低下:传统的“从头训练(Train-from-Scratch)”优化过程非常耗时。
- 几何精度不足:单帧几何先验缺乏帧间尺度一致性。
- 多视角一致性差:导致系统在跟踪和建图质量上受限。
论文提出了名为Flash-Mono的系统,它包含三个核心模块:
- 前馈预测前端:训练了一个循环前馈模型,通过交叉注意力(cross attention)逐步聚合多帧视觉特征到隐藏状态(hidden state),并联合预测相机位姿和逐像素的高斯属性。
- 2D高斯泼溅建图后端:用2D高斯面元(surfels)替代传统的3D高斯椭球体(ellipsoids),以提升几何保真度。
- 基于隐藏状态的高效闭环模块:利用隐藏状态作为紧凑的子图描述符,进行高效的闭环检测和全局Sim(3)优化,以缓解漂移(drift)问题。
论文的核心创新点在于提出了一种全新的前馈(Feed-Forward)范式,以替代传统基于优化的高斯泼溅SLAM,具体独特之处包括:
- 范式转变:从耗时的“每帧优化”转变为利用多帧上下文直接预测高斯属性的前馈预测,实现了10倍的加速。
- 循环架构与隐藏状态:设计了一个循环(recurrent)前端,其产生的隐藏状态不仅用于高效预测,还充当了用于高效闭环的子图描述符,这是首次将隐藏状态用于高斯泼溅SLAM的闭环。
- 几何表示创新:用2D高斯面元替代3D高斯椭球体,旨在获得更好的几何精度。
- 端到端联合预测:模型能够联合预测相机位姿和高斯属性,确保了多视角一致性。
论文对该领域的整体贡献是:
- 提出了第一个基于前馈预测的单目高斯泼溅SLAM系统(Flash-Mono),在速度、精度和一致性上实现了显著提升。
- 通过系统设计和实验验证,证明了前馈范式在高斯泼溅SLAM中的可行性和优越性,为实时重建和具身感知(embodied perception)应用提供了新的解决方案。
- 在多个指标上达到了最先进的(state-of-the-art)性能,为后续研究树立了新的基准。