该论文旨在解决端到端自动驾驶领域的一个关键问题:如何高效地将密集3D几何信息整合到在线决策过程中。研究背景是:当前主流的视觉-语言-动作(VLA)模型依赖语言描述作为辅助任务,但作者认为车辆在3D世界中运行,密集3D几何(dense 3D geometry)应作为决策的核心线索。然而,现有几何重建方法(如DVGT)依赖多帧输入的批量处理(batch processing),计算成本高且无法应用于在线规划(online planning)。
论文提出了一个流式驾驶视觉几何变换器(streaming Driving Visual Geometry Transformer, DVGT-2)。
- **核心架构**:采用在线处理方式,联合输出当前帧的密集几何和轨迹规划(trajectory planning)。
- **关键技术**:
- 使用时序因果注意力(temporal causal attention)和缓存历史特征(cache historical features)来支持实时推理(on-the-fly inference)。
- 提出滑动窗口流式策略(sliding-window streaming strategy),在特定间隔内利用历史缓存,避免重复计算。
论文的核心创新在于提出了一个全新的**视觉-几何-动作(VGA)范式(Vision-Geometry-Action paradigm)**,并实现了首个支持**在线、流式处理的密集3D几何重建与规划一体化模型**。
- **范式创新**:与依赖语言描述的VLA范式不同,VGA范式主张将密集3D几何作为自动驾驶决策的**核心线索**,更符合车辆在3D物理世界运行的本质。
- **方法创新**:
- **在线处理能力**:解决了现有几何重建方法(如DVGT)只能进行批量处理、无法用于在线规划的瓶颈。
- **高效性**:通过时序因果注意力和滑动窗口缓存策略,在保证性能的同时大幅提升推理速度。
- **强泛化性**:同一训练模型无需微调(fine-tuning),即可直接应用于不同相机配置下的规划任务,展现了卓越的跨场景适应能力。
论文对该领域的整体贡献体现在三个方面:
1. **提出新范式**:系统性地论证并提出了以密集3D几何为核心的VGA自动驾驶范式,为端到端自动驾驶研究提供了新的、有物理依据的技术路线。
2. **提供高效解决方案**:提出的DVGT-2模型首次实现了密集几何重建与规划任务的在线、高效联合处理,在多个数据集上取得了优于现有方法的几何重建性能。
3. **验证强泛化能力**:通过实验证明,单一DVGT-2模型在闭环NAVSIM和开环nuScenes等多个基准测试(benchmarks)上,无需调整即可适应不同的相机配置,展示了其在实际部署中的巨大潜力。