DVGT-2：面向大规模自动驾驶的视觉-几何-动作一体化模型

📝 论文摘要

端到端自动驾驶已从基于稀疏感知的传统范式，演变为视觉-语言-行动（VLA）模型，这类模型侧重于学习语言描述作为辅助任务以促进规划。本文提出了一种替代性的视觉-几何-行动（VGA）范式，主张将密集三维几何作为自动驾驶的关键线索。由于车辆在三维世界中运行，我们认为密集三维几何为决策提供了最全面的信息。然而，现有的大多数几何重建方法（如DVGT）依赖于对多帧输入进行计算成本高昂的批量处理，无法应用于在线规划。为解决这一问题，我们引入了流式驾驶视觉几何变换器（DVGT-2），它以在线方式处理输入，并联合输出当前帧的密集几何和轨迹规划。我们采用时序因果注意力机制并缓存历史特征，以支持实时推理。为进一步提升效率，我们提出了滑动窗口流式策略，并在一定时间间隔内使用历史缓存以避免重复计算。尽管速度更快，DVGT-2在多个数据集上实现了更优的几何重建性能。训练完成的DVGT-2可直接应用于不同相机配置下的规划任务，无需微调，包括闭环NAVSIM和开环nuScenes基准测试。

🎯 研究动机

该论文旨在解决端到端自动驾驶领域的一个关键问题：如何高效地将密集3D几何信息整合到在线决策过程中。研究背景是：当前主流的视觉-语言-动作(VLA)模型依赖语言描述作为辅助任务，但作者认为车辆在3D世界中运行，密集3D几何(dense 3D geometry)应作为决策的核心线索。然而，现有几何重建方法（如DVGT）依赖多帧输入的批量处理(batch processing)，计算成本高且无法应用于在线规划(online planning)。

🔧 核心方法

论文提出了一个流式驾驶视觉几何变换器(streaming Driving Visual Geometry Transformer, DVGT-2)。 - **核心架构**：采用在线处理方式，联合输出当前帧的密集几何和轨迹规划(trajectory planning)。 - **关键技术**： - 使用时序因果注意力(temporal causal attention)和缓存历史特征(cache historical features)来支持实时推理(on-the-fly inference)。 - 提出滑动窗口流式策略(sliding-window streaming strategy)，在特定间隔内利用历史缓存，避免重复计算。

💡 核心创新

论文的核心创新在于提出了一个全新的**视觉-几何-动作(VGA)范式(Vision-Geometry-Action paradigm)**，并实现了首个支持**在线、流式处理的密集3D几何重建与规划一体化模型**。 - **范式创新**：与依赖语言描述的VLA范式不同，VGA范式主张将密集3D几何作为自动驾驶决策的**核心线索**，更符合车辆在3D物理世界运行的本质。 - **方法创新**： - **在线处理能力**：解决了现有几何重建方法（如DVGT）只能进行批量处理、无法用于在线规划的瓶颈。 - **高效性**：通过时序因果注意力和滑动窗口缓存策略，在保证性能的同时大幅提升推理速度。 - **强泛化性**：同一训练模型无需微调(fine-tuning)，即可直接应用于不同相机配置下的规划任务，展现了卓越的跨场景适应能力。

🏆 总体贡献

论文对该领域的整体贡献体现在三个方面： 1. **提出新范式**：系统性地论证并提出了以密集3D几何为核心的VGA自动驾驶范式，为端到端自动驾驶研究提供了新的、有物理依据的技术路线。 2. **提供高效解决方案**：提出的DVGT-2模型首次实现了密集几何重建与规划任务的在线、高效联合处理，在多个数据集上取得了优于现有方法的几何重建性能。 3. **验证强泛化能力**：通过实验证明，单一DVGT-2模型在闭环NAVSIM和开环nuScenes等多个基准测试(benchmarks)上，无需调整即可适应不同的相机配置，展示了其在实际部署中的巨大潜力。

DVGT-2：面向大规模自动驾驶的视觉-几何-动作一体化模型
DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

📊 核心分析

DVGT-2：面向大规模自动驾驶的视觉-几何-动作一体化模型 DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

📊 核心分析

DVGT-2：面向大规模自动驾驶的视觉-几何-动作一体化模型
DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale