用于三维目标检测的学习型非极大值抑制

📝 论文摘要

后处理是基于LiDAR的3D物体检测中的关键阶段，其中密集且重叠的候选框必须经过过滤，以实现紧凑且可靠的感知。本文引入了两个学习型过滤模块，通过利用检测结果之间的关系来替代启发式非极大值抑制（NMS）。D2D-Rescore采用基于Transformer的检测到检测（D2D）注意力机制，而GossipNet3D则通过鸟瞰视图中的局部消息传递将2D的GossipNet概念扩展到3D。一种与nuScenes评估协议对齐的度量感知匹配策略确保了训练和验证行为的一致性，从而提升了整体检测性能。与CircleNMS相比，两种方法均提高了平均精度（mAP）、nuScenes检测分数（NDS）和真阳性质量，尤其在小样本和稀有类别上表现显著，同时仅增加了极小的计算开销。这些结果表明，学习型检测级别过滤可以在不修改基础网络的情况下增强3D检测器的可靠性，为启发式抑制提供了一种有原则的替代方案。代码地址：https://github.com/rst-tu-dortmund/learned-3d-nms。

🎯 研究动机

- 现有基于激光雷达(LiDAR)的3D目标检测中，后处理阶段使用启发式的**非极大值抑制(NMS)** 方法，无法有效处理密集重叠的候选框 - 启发式NMS缺乏对检测间关系的建模，导致在小物体和罕见类别上性能不佳 - 需要一种可学习的、原则性的替代方案来提升检测后处理的可靠性和一致性

🔧 核心方法

- 提出**D2D-Rescore** 模块，采用**Transformer** 架构实现检测-检测之间的注意力(detection-to-detection attention)机制 - 提出**GossipNet3D** 模块，将2D的GossipNet概念扩展到3D，通过**鸟瞰图(Bird's-Eye View, BEV)** 中的局部消息传递进行检测过滤 - 设计**度量感知匹配策略(metric-aware matching strategy)**，与nuScenes评估协议对齐，确保训练和验证行为一致

💡 核心创新

- **首次** 将学习型过滤模块替代启发式NMS，利用检测间关系（transformer注意力或消息传递）进行后处理 - **端到端可学习**：通过数据驱动的方式优化过滤过程，无需修改基础检测网络 - **度量感知训练**：匹配策略与评估指标对齐，提升mAP、NDS和真阳性质量，尤其在**小和罕见类别** 上效果显著 - **低计算开销**：在提升性能的同时仅增加极小的计算成本，保持高效推理

🏆 总体贡献

- 为3D目标检测提供了一种**可学习后处理范式**，替代传统启发式NMS，提升了检测可靠性 - 在nuScenes基准上取得了更优的**平均精度(mAP)** 和**检测分数(NDS)**，特别是在小物体和罕见类别上 - 代码开源，促进了社区对学习型NMS方法的复现与后续研究 - 展示了检测级学习过滤可以**即插即用** 地增强现有3D检测器，无需修改基础网络架构

用于三维目标检测的学习型非极大值抑制
用于三维目标检测的学习型非极大值抑制

📊 核心分析

用于三维目标检测的学习型非极大值抑制 用于三维目标检测的学习型非极大值抑制

📊 核心分析

用于三维目标检测的学习型非极大值抑制
用于三维目标检测的学习型非极大值抑制