该论文旨在解决视觉同时定位与地图构建(VSLAM)中,使用匹配关键点估计相对相机位姿时,因噪声对应点而导致的精度挑战。研究背景是:传统方法依赖随机假设采样和迭代估计,而基于学习的方法通常缺乏显式的几何结构。
论文将相对位姿估计重新表述为一个基于极线对应图(epipolar correspondence graphs)的关系推理问题。具体方法包括:
- 将匹配的关键点作为节点,将附近的关键点通过边连接,构建图结构。
- 通过图操作(如剪枝、消息传递和池化)来估计四元数旋转、平移向量和本质矩阵(Essential Matrix, EM)。
- 使用一个复合损失函数进行优化,该损失包括:(i) 与真实值(GT)的L2差异,(ii) 估计与GT本质矩阵之间的Frobenius范数,(iii) 奇异值差异,(iv) 航向角差异,以及(v) 尺度差异。
- 采用无检测器的密集匹配方法LoFTR进行关键点匹配。
论文的核心创新在于:
- **将相对位姿估计重新定义为图关系推理问题**:与依赖随机采样(如RANSAC)的传统方法或缺乏明确几何约束的端到端学习方法不同,该方法显式地构建了极线对应图,将几何关系编码为图结构。
- **利用全局关系共识进行鲁棒估计**:通过图上的消息传递和池化操作,聚合全局上下文信息,实现对噪声对应点和大幅基线变化的鲁棒性,这超越了局部采样或纯数据驱动的方法。
- **统一的几何与学习框架**:将经典的几何约束(如本质矩阵)与基于图神经网络(GNN)的关系学习相结合,在保持几何解释性的同时提升了学习能力。
论文对该领域的整体贡献是:
- 提出了一种新颖的、基于图神经网络的相对相机位姿估计框架,将几何问题转化为关系推理任务。
- 在室内和室外基准测试中,相比传统方法和学习引导方法,展示了对密集噪声和大基线变化更强的鲁棒性。
- 验证了全局关系共识在提高估计精度和稳定性方面的有效性,为VSLAM和三维重建中的鲁棒几何估计提供了新思路。