面向学习型3D目标检测的对象级V2X鲁棒融合

📝 论文摘要

自动驾驶的感知主要依赖于车载环境传感器（如摄像头和雷达），这些传感器成本低廉，但受限于视距和视野范围。这些固有局限性可能导致车载感知在遮挡或能见度不良条件下失效。与此同时，基于车联网（V2X）通信的协同感知正日益普及，使车辆和基础设施能够以对象级信息共享自身状态，从而补充车载感知。本研究探讨如何将此类V2X信息集成至3D目标检测中，并评估所得系统对真实V2X非理想状态的鲁棒性。利用nuScenes数据集，我们从真值仿真对象级协同感知消息，注入受控噪声和对象缺失以模拟延迟、定位误差及低V2X渗透率等真实场景。我们将这些消息转换为专用鸟瞰图（BEV）输入，并融合至BEVFusion风格检测器中。结果表明：尽管对象级协同信息能显著提升检测性能（在理想条件下NDS达到0.80），但基于理想化数据训练的模型会变得脆弱且过度依赖V2X。相反，我们提出的噪声感知训练策略结合显式置信度编码可增强鲁棒性，即使在严重噪声和低V2X渗透率下仍能保持性能增益。

🎯 研究动机

- 自动驾驶的**车载感知(onboard perception)** 受限于视线遮挡和视野约束，在遮挡或能见度差时可能失效 - **车辆与万物互联(V2X)** 通信可提供对象级信息补充车载感知，但实际V2X存在延迟、定位误差、低渗透率等不完美因素 - 现有研究缺乏对V2X信息集成到**3D目标检测(3D object detection)** 中的系统鲁棒性分析

🔧 核心方法

- 基于**nuScenes** 数据集，从**真实标注(ground truth)** 模拟对象级V2X协同感知消息，注入受控噪声和对象丢失 - 将V2X消息转换为专用的**鸟瞰图(Bird's-Eye View, BEV)** 输入，并融合到**BEVFusion风格检测器(BEVFusion-style detector)** 中 - 提出**噪声感知训练策略(noise-aware training strategy)**，结合**显式置信度编码(explicit confidence encoding)**，以增强对V2X不完美的鲁棒性

💡 核心创新

- **首创性**：系统研究了对象级V2X信息在3D目标检测中的融合鲁棒性，揭示了理想数据训练的模型对V2X过度依赖的脆弱性 - **方法创新**：提出**噪声感知训练** 和**显式置信度编码**，使模型在严重噪声和低V2X渗透率下仍能维持性能增益 - **实践洞察**：证明在理想条件下V2X可显著提升检测性能（**NDS达0.80**），但若不进行鲁棒训练则性能易受退化

🏆 总体贡献

- 为**协同感知(cooperative perception)** 领域提供了融合对象级V2X信息的系统评估框架和鲁棒训练方法 - 验证了**噪声感知训练** 策略的有效性，为实际V2X部署中的**模型健壮性(model robustness)** 设计提供指导 - 公开了模拟V2X不完美环境的实验设置，促进后续研究的可复现性与标准化评估

面向学习型3D目标检测的对象级V2X鲁棒融合
Robust Fusion of Object-Level V2X for Learned 3D Object Detection

📊 核心分析

面向学习型3D目标检测的对象级V2X鲁棒融合 Robust Fusion of Object-Level V2X for Learned 3D Object Detection

📊 核心分析

面向学习型3D目标检测的对象级V2X鲁棒融合
Robust Fusion of Object-Level V2X for Learned 3D Object Detection