- 基于摄像头的**3D目标检测与跟踪(3D object detection and tracking) ** 在自动驾驶中至关重要,但受限于** 深度模糊(depth ambiguity) ** 问题,无法像在线LiDAR那样提供精确深度信息
- 在线使用** LiDAR传感器**成本高昂且资源消耗大,许多部署场景难以配备
- 车辆常反复经过相同环境,因此** 先前遍历的静态点云地图(prior-traversal point cloud map)** 可作为廉价且可用的几何先验来源
- 提出**DualViewMapDet** 框架,一种**仅摄像头推理(camera-only inference) ** 架构,通过在线检索地图先验来弥补部署时LiDAR缺失
- 采用** 双空间相机-地图融合策略(dual-space camera-map fusion) ** :(i)将地图投影至** 透视视图(perspective view, PV) ** 并编码多通道几何线索来增强图像特征并支持** BEV提升(BEV lifting) ** ;(ii)在** 鸟瞰图(bird's-eye view, BEV)** 中直接用稀疏体素骨干编码地图,并与提升后的相机特征在共享度量空间融合
- 整体框架在nuScenes和Argoverse 2数据集上评估,消融实验验证了PV/BEV融合及先验地图覆盖的贡献
- **首创性地利用历史遍历点云地图先验** :在无在线LiDAR时,通过复用先前采集的静态地图提供几何信息,避免额外硬件成本
- **双空间融合避免单视角转换缺陷** :同时从PV和BEV两个视角处理地图数据,保留各自的几何与语义优势,优于仅单视角投影的方法
- **多通道几何线索编码** :在透视视图中将地图投影为密集的几何特征图,使图像特征和BEV提升受益于更丰富的深度先验
- 为**基于摄像头的3D感知(camera-based 3D perception) ** 提供了一种利用复用地图先验的新范式,显著缓解** 深度模糊问题**
- 在** nuScenes**和** Argoverse 2**两大基准上,相比强基线的仅摄像头方法,在** 目标定位(object localization)** 指标上取得一致且显著的提升
- 开源代码与预训练模型,促进社区复现与后续研究,推动低成本自动驾驶感知方案的实际部署