← 返回论文列表

DVGT-2:面向大规模自动驾驶的视觉-几何-动作一体化模型
DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

作者: Sicheng Zuo, Zixun Xie, Wenzhao Zheng 等9人
arXiv: 2604.00813v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
端到端自动驾驶已从基于稀疏感知的传统范式,演变为视觉-语言-行动(VLA)模型,这类模型侧重于学习语言描述作为辅助任务以促进规划。本文提出了一种替代性的视觉-几何-行动(VGA)范式,主张将密集三维几何作为自动驾驶的关键线索。由于车辆在三维世界中运行,我们认为密集三维几何为决策提供了最全面的信息。然而,现有的大多数几何重建方法(如DVGT)依赖于对多帧输入进行计算成本高昂的批量处理,无法应用于在线规划。为解决这一问题,我们引入了流式驾驶视觉几何变换器(DVGT-2),它以在线方式处理输入,并联合输出当前帧的密集几何和轨迹规划。我们采用时序因果注意力机制并缓存历史特征,以支持实时推理。为进一步提升效率,我们提出了滑动窗口流式策略,并在一定时间间隔内使用历史缓存以避免重复计算。尽管速度更快,DVGT-2在多个数据集上实现了更优的几何重建性能。训练完成的DVGT-2可直接应用于不同相机配置下的规划任务,无需微调,包括闭环NAVSIM和开环nuScenes基准测试。

📊 核心分析

🎯 研究动机
该论文旨在解决端到端自动驾驶领域的一个关键问题:如何高效地将密集3D几何信息整合到在线决策过程中。研究背景是:当前主流的视觉-语言-动作(VLA)模型依赖语言描述作为辅助任务,但作者认为车辆在3D世界中运行,密集3D几何(dense 3D geometry)应作为决策的核心线索。然而,现有几何重建方法(如DVGT)依赖多帧输入的批量处理(batch processing),计算成本高且无法应用于在线规划(online planning)。
🔧 核心方法
论文提出了一个流式驾驶视觉几何变换器(streaming Driving Visual Geometry Transformer, DVGT-2)。 - **核心架构**:采用在线处理方式,联合输出当前帧的密集几何和轨迹规划(trajectory planning)。 - **关键技术**: - 使用时序因果注意力(temporal causal attention)和缓存历史特征(cache historical features)来支持实时推理(on-the-fly inference)。 - 提出滑动窗口流式策略(sliding-window streaming strategy),在特定间隔内利用历史缓存,避免重复计算。
💡 核心创新
论文的核心创新在于提出了一个全新的**视觉-几何-动作(VGA)范式(Vision-Geometry-Action paradigm)**,并实现了首个支持**在线、流式处理的密集3D几何重建与规划一体化模型**。 - **范式创新**:与依赖语言描述的VLA范式不同,VGA范式主张将密集3D几何作为自动驾驶决策的**核心线索**,更符合车辆在3D物理世界运行的本质。 - **方法创新**: - **在线处理能力**:解决了现有几何重建方法(如DVGT)只能进行批量处理、无法用于在线规划的瓶颈。 - **高效性**:通过时序因果注意力和滑动窗口缓存策略,在保证性能的同时大幅提升推理速度。 - **强泛化性**:同一训练模型无需微调(fine-tuning),即可直接应用于不同相机配置下的规划任务,展现了卓越的跨场景适应能力。
🏆 总体贡献
论文对该领域的整体贡献体现在三个方面: 1. **提出新范式**:系统性地论证并提出了以密集3D几何为核心的VGA自动驾驶范式,为端到端自动驾驶研究提供了新的、有物理依据的技术路线。 2. **提供高效解决方案**:提出的DVGT-2模型首次实现了密集几何重建与规划任务的在线、高效联合处理,在多个数据集上取得了优于现有方法的几何重建性能。 3. **验证强泛化能力**:通过实验证明,单一DVGT-2模型在闭环NAVSIM和开环nuScenes等多个基准测试(benchmarks)上,无需调整即可适应不同的相机配置,展示了其在实际部署中的巨大潜力。