← 返回论文列表

MPTF-Net:基于激光雷达场景识别的多视角金字塔变换融合网络
MPTF-Net: Multi-view Pyramid Transformer Fusion Network for LiDAR-based Place Recognition

作者: Shuyuan Li, Zihang Wang, Xieyuanli Chen 等8人
arXiv: 2604.04513v1
分类: cs.CV, cs.RO
📝 论文摘要
基于激光雷达的地点识别在大规模SLAM系统中对全局定位与回环检测至关重要。现有方法通常从距离图像或鸟瞰图表示中构建全局描述符进行匹配。鸟瞰图因其显式的二维空间布局编码与高效检索能力被广泛采用。然而传统鸟瞰图表示依赖简单的统计聚合,难以捕捉细粒度几何结构,导致在复杂或重复环境中性能下降。为此,我们提出MPTF-Net——一种新颖的多视角多尺度金字塔Transformer融合网络。核心贡献在于提出基于多通道NDT的鸟瞰图编码方法,通过正态分布变换显式建模局部几何复杂度与强度分布,提供抗噪声的结构先验。为有效融合这些特征,我们设计了定制化的金字塔Transformer模块,在多个空间尺度上捕获距离图像视角与NDT鸟瞰图之间的跨视角交互关联。在nuScenes、KITTI和NCLT数据集上的大量实验表明,MPTF-Net实现了最先进的性能,特别是在nuScenes波士顿分区上获得96.31%的Recall@1,同时保持仅10.02毫秒的推理延迟,使其高度适用于实时自主无人系统。

📊 核心分析

🎯 研究动机
该论文旨在解决基于激光雷达(LiDAR)的地点识别(place recognition)在复杂或重复环境中性能下降的问题。研究背景是:现有方法通常从距离图像(Range Images)或鸟瞰图(BEV)表示构建全局描述符进行匹配,其中BEV因其显式的2D空间布局编码和高效检索而被广泛采用。然而,传统的BEV表示依赖于简单的统计聚合,无法捕捉细粒度的几何结构,导致在复杂或重复环境中性能下降。
🔧 核心方法
论文提出了MPTF-Net,一个新颖的多视图多尺度金字塔Transformer融合网络。具体方法包括: - 核心贡献是一种基于多通道正态分布变换(NDT)的BEV编码,通过正态分布变换(Normal Distribution Transform)显式建模局部几何复杂度和强度分布,提供抗噪声的结构先验。 - 开发了一个定制的金字塔Transformer模块,在多个空间尺度上捕获距离图像视图(RIV)和NDT-BEV之间的跨视图交互相关性。
💡 核心创新
论文的核心创新点在于: - 提出了多通道NDT-BEV编码:与依赖简单统计聚合的传统BEV表示不同,该方法通过正态分布变换(NDT)显式建模局部几何复杂度和强度分布,提供了更丰富、更具判别性且抗噪声的结构先验。 - 设计了定制的多尺度金字塔Transformer融合模块:该模块能够有效整合距离图像视图(RIV)和NDT-BEV的多尺度特征,通过捕获跨视图的交互相关性,实现了更鲁棒的特征表示。 - 整体网络架构(MPTF-Net)将上述创新结合,形成了一个端到端的多视图多尺度融合网络,在保持高推理效率的同时显著提升了识别性能。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出了一种新颖的基于激光雷达的地点识别网络MPTF-Net,通过多视图多尺度金字塔Transformer融合,显著提升了在复杂环境下的识别性能。 - 在nuScenes、KITTI和NCLT数据集上的大量实验表明,MPTF-Net达到了最先进的性能,特别是在nuScenes Boston split上实现了96.31%的Recall@1,同时推理延迟仅为10.02毫秒。 - 该方法在保持高精度的同时具备高推理效率,使其非常适合实时自主无人系统,为大规模SLAM系统中的全局定位和闭环检测提供了有效的解决方案。