← 返回论文列表

维加:通过自然语言指令学习驾驶
Vega: Learning to Drive with Natural Language Instructions

作者: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng 等6人
arXiv: 2603.25741v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
视觉-语言-动作模型重塑了自动驾驶领域,将语言纳入决策过程。然而,现有的大多数流程仅将语言模态用于场景描述或推理,缺乏遵循多样化用户指令以实现个性化驾驶的灵活性。为解决这一问题,我们首先构建了一个大规模驾驶数据集(InstructScene),包含约10万个场景,每个场景都标注了多样化的驾驶指令及对应的轨迹。随后,我们提出了一种统一的视觉-语言-世界-动作模型Vega,用于基于指令的生成与规划。我们采用自回归范式处理视觉输入(视觉)和语言指令(语言),并利用扩散范式生成未来预测(世界建模)和轨迹(动作)。通过联合注意力机制实现不同模态间的交互,并为各模态使用独立的投影层以增强模型能力。大量实验表明,我们的方法不仅在规划性能上表现卓越,还展现出强大的指令遵循能力,为更智能、个性化的驾驶系统开辟了新路径。

📊 核心分析

🎯 研究动机
该论文旨在解决现有自动驾驶系统中语言模态利用不足的问题。研究背景是: - 现有视觉-语言-动作(vision-language-action)模型主要将语言用于场景描述或推理 - 缺乏根据多样化用户指令进行个性化驾驶的灵活性
🔧 核心方法
论文提出了一种统一的视觉-语言-世界-动作(vision-language-world-action)模型Vega,具体方法包括: - 构建大规模驾驶数据集InstructScene(约10万个场景,包含多样化驾驶指令及对应轨迹) - 采用自回归(autoregressive)范式处理视觉输入和语言指令 - 使用扩散(diffusion)范式生成未来预测(世界建模)和轨迹(动作) - 通过联合注意力(joint attention)实现多模态交互 - 为不同模态使用独立的投影层以增强模型能力
💡 核心创新
论文的核心创新点在于: - 首次提出统一的视觉-语言-世界-动作(vision-language-world-action)四模态融合框架,将世界建模(world modeling)作为独立模态引入 - 创新性地结合自回归(autoregressive)和扩散(diffusion)两种生成范式,分别处理不同模态任务 - 构建首个大规模指令驱动驾驶数据集InstructScene,支持多样化个性化指令 - 实现了真正的指令跟随式驾驶规划,而非仅将语言用于场景理解
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出Vega模型框架,为基于自然语言指令的自动驾驶提供了新范式 - 通过大规模数据集和实验验证了方法的有效性,在规划性能和指令跟随能力上均表现优异 - 推动了自动驾驶系统向更智能、个性化方向发展,为未来人车交互提供了技术基础