该论文旨在解决动态环境下的视觉SLAM问题。研究背景是:虽然基于3D高斯泼溅(3D Gaussian Splatting, 3DGS)表示的视觉SLAM算法在生成高保真稠密地图方面取得显著进展,但它们依赖静态环境假设,在动态环境中性能会严重下降。
论文提出了GGD-SLAM框架,其核心方法包括:
- 采用一个通用化的运动模型(generalizable motion model)来处理动态环境,无需预定义的语义标注或深度输入。
- 使用先进先出(First-In-First-Out, FIFO)队列管理输入帧,通过序列注意力机制(sequential attention mechanism)提取动态语义特征。
- 集成动态特征增强器(dynamic feature enhancer)来分离静态和动态成分。
- 设计了一种通过静态信息采样填充被遮挡区域的方法,以减少动态干扰物对静态成分的影响。
- 为动态环境定制了一种干扰物自适应的结构相似性指数(Structure Similarity Index Measure, SSIM)损失函数。
论文的核心创新点在于:
- **通用化运动模型的应用**:首次将通用化运动模型与3DGS SLAM结合,专门用于处理动态环境,且不依赖预定义的语义或深度信息,提升了系统的泛化能力和实用性。
- **动态特征分离与增强机制**:通过FIFO队列和序列注意力机制,结合动态特征增强器,有效分离场景中的静态与动态成分,这是处理动态SLAM问题的关键创新。
- **针对动态环境的定制化损失函数**:设计了干扰物自适应的SSIM损失,显著增强了系统在动态干扰下的鲁棒性,这是对传统SLAM优化目标的针对性改进。
论文对该领域的整体贡献是:
- 提出了GGD-SLAM,一个在动态环境中实现高精度定位和稠密重建的先进单目SLAM系统。
- 在真实世界动态数据集上的实验表明,该系统在相机位姿估计和动态场景稠密重建方面达到了最先进的(state-of-the-art)性能。
- 为动态环境下的3DGS SLAM研究提供了新的技术思路和解决方案,推动了该方向的发展。