该论文旨在解决基于激光雷达(LiDAR)的地点识别(place recognition)在复杂或重复环境中性能下降的问题。研究背景是:现有方法通常从距离图像(Range Images)或鸟瞰图(BEV)表示构建全局描述符进行匹配,其中BEV因其显式的2D空间布局编码和高效检索而被广泛采用。然而,传统的BEV表示依赖于简单的统计聚合,无法捕捉细粒度的几何结构,导致在复杂或重复环境中性能下降。
论文提出了MPTF-Net,一个新颖的多视图多尺度金字塔Transformer融合网络。具体方法包括:
- 核心贡献是一种基于多通道正态分布变换(NDT)的BEV编码,通过正态分布变换(Normal Distribution Transform)显式建模局部几何复杂度和强度分布,提供抗噪声的结构先验。
- 开发了一个定制的金字塔Transformer模块,在多个空间尺度上捕获距离图像视图(RIV)和NDT-BEV之间的跨视图交互相关性。
论文的核心创新点在于:
- 提出了多通道NDT-BEV编码:与依赖简单统计聚合的传统BEV表示不同,该方法通过正态分布变换(NDT)显式建模局部几何复杂度和强度分布,提供了更丰富、更具判别性且抗噪声的结构先验。
- 设计了定制的多尺度金字塔Transformer融合模块:该模块能够有效整合距离图像视图(RIV)和NDT-BEV的多尺度特征,通过捕获跨视图的交互相关性,实现了更鲁棒的特征表示。
- 整体网络架构(MPTF-Net)将上述创新结合,形成了一个端到端的多视图多尺度融合网络,在保持高推理效率的同时显著提升了识别性能。
论文对该领域的整体贡献是:
- 提出了一种新颖的基于激光雷达的地点识别网络MPTF-Net,通过多视图多尺度金字塔Transformer融合,显著提升了在复杂环境下的识别性能。
- 在nuScenes、KITTI和NCLT数据集上的大量实验表明,MPTF-Net达到了最先进的性能,特别是在nuScenes Boston split上实现了96.31%的Recall@1,同时推理延迟仅为10.02毫秒。
- 该方法在保持高精度的同时具备高推理效率,使其非常适合实时自主无人系统,为大规模SLAM系统中的全局定位和闭环检测提供了有效的解决方案。