← 返回论文列表

Flash-Mono:前馈加速高斯溅射单目SLAM
Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

作者: Zicheng Zhang, Ke Wu, Xiangting Meng 等6人
arXiv: 2604.03092v1
分类: cs.RO
📝 论文摘要
单目3D高斯溅射SLAM在时间效率、几何精度和多视角一致性方面存在显著局限。这些问题源于耗时的"从零开始训练"优化策略,以及单帧几何先验缺乏帧间尺度一致性。我们认为,利用多帧上下文直接预测高斯属性的前馈范式是解决这些挑战的关键。本文提出Flash-Mono系统,其包含三个核心模块:前馈预测前端、2D高斯溅射建图后端,以及基于隐状态的高效闭环模块。我们训练了循环式前馈前端模型,通过交叉注意力逐步将多帧视觉特征聚合为隐状态,并联合预测相机位姿与逐像素高斯属性。通过直接预测高斯属性,我们的方法绕过了基于优化的GS-SLAM所需的逐帧繁重计算,在保证高质量渲染的同时实现了10倍加速。循环架构的优势不仅在于高效预测——隐状态作为紧凑的子地图描述符,能够支持高效闭环检测和全局Sim(3)优化,从而缓解长期存在的漂移问题。为提升几何保真度,我们采用2D高斯面元替代传统3D高斯椭球体。大量实验表明,Flash-Mono在跟踪与建图质量上均达到最先进水平,展现了其在具身感知与实时重建应用中的潜力。项目页面:https://victkk.github.io/flash-mono。

📊 核心分析

🎯 研究动机
该论文旨在解决基于单目相机的3D高斯泼溅(Gaussian Splatting) SLAM系统存在的三个关键问题: - 时间效率低下:传统的“从头训练(Train-from-Scratch)”优化过程非常耗时。 - 几何精度不足:单帧几何先验缺乏帧间尺度一致性。 - 多视角一致性差:导致系统在跟踪和建图质量上受限。
🔧 核心方法
论文提出了名为Flash-Mono的系统,它包含三个核心模块: - 前馈预测前端:训练了一个循环前馈模型,通过交叉注意力(cross attention)逐步聚合多帧视觉特征到隐藏状态(hidden state),并联合预测相机位姿和逐像素的高斯属性。 - 2D高斯泼溅建图后端:用2D高斯面元(surfels)替代传统的3D高斯椭球体(ellipsoids),以提升几何保真度。 - 基于隐藏状态的高效闭环模块:利用隐藏状态作为紧凑的子图描述符,进行高效的闭环检测和全局Sim(3)优化,以缓解漂移(drift)问题。
💡 核心创新
论文的核心创新点在于提出了一种全新的前馈(Feed-Forward)范式,以替代传统基于优化的高斯泼溅SLAM,具体独特之处包括: - 范式转变:从耗时的“每帧优化”转变为利用多帧上下文直接预测高斯属性的前馈预测,实现了10倍的加速。 - 循环架构与隐藏状态:设计了一个循环(recurrent)前端,其产生的隐藏状态不仅用于高效预测,还充当了用于高效闭环的子图描述符,这是首次将隐藏状态用于高斯泼溅SLAM的闭环。 - 几何表示创新:用2D高斯面元替代3D高斯椭球体,旨在获得更好的几何精度。 - 端到端联合预测:模型能够联合预测相机位姿和高斯属性,确保了多视角一致性。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出了第一个基于前馈预测的单目高斯泼溅SLAM系统(Flash-Mono),在速度、精度和一致性上实现了显著提升。 - 通过系统设计和实验验证,证明了前馈范式在高斯泼溅SLAM中的可行性和优越性,为实时重建和具身感知(embodied perception)应用提供了新的解决方案。 - 在多个指标上达到了最先进的(state-of-the-art)性能,为后续研究树立了新的基准。