维加：通过自然语言指令学习驾驶

📝 论文摘要

视觉-语言-动作模型重塑了自动驾驶领域，将语言纳入决策过程。然而，现有的大多数流程仅将语言模态用于场景描述或推理，缺乏遵循多样化用户指令以实现个性化驾驶的灵活性。为解决这一问题，我们首先构建了一个大规模驾驶数据集（InstructScene），包含约10万个场景，每个场景都标注了多样化的驾驶指令及对应的轨迹。随后，我们提出了一种统一的视觉-语言-世界-动作模型Vega，用于基于指令的生成与规划。我们采用自回归范式处理视觉输入（视觉）和语言指令（语言），并利用扩散范式生成未来预测（世界建模）和轨迹（动作）。通过联合注意力机制实现不同模态间的交互，并为各模态使用独立的投影层以增强模型能力。大量实验表明，我们的方法不仅在规划性能上表现卓越，还展现出强大的指令遵循能力，为更智能、个性化的驾驶系统开辟了新路径。

🎯 研究动机

该论文旨在解决现有自动驾驶系统中语言模态利用不足的问题。研究背景是： - 现有视觉-语言-动作(vision-language-action)模型主要将语言用于场景描述或推理 - 缺乏根据多样化用户指令进行个性化驾驶的灵活性

🔧 核心方法

论文提出了一种统一的视觉-语言-世界-动作(vision-language-world-action)模型Vega，具体方法包括： - 构建大规模驾驶数据集InstructScene（约10万个场景，包含多样化驾驶指令及对应轨迹） - 采用自回归(autoregressive)范式处理视觉输入和语言指令 - 使用扩散(diffusion)范式生成未来预测（世界建模）和轨迹（动作） - 通过联合注意力(joint attention)实现多模态交互 - 为不同模态使用独立的投影层以增强模型能力

💡 核心创新

论文的核心创新点在于： - 首次提出统一的视觉-语言-世界-动作(vision-language-world-action)四模态融合框架，将世界建模(world modeling)作为独立模态引入 - 创新性地结合自回归(autoregressive)和扩散(diffusion)两种生成范式，分别处理不同模态任务 - 构建首个大规模指令驱动驾驶数据集InstructScene，支持多样化个性化指令 - 实现了真正的指令跟随式驾驶规划，而非仅将语言用于场景理解

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出Vega模型框架，为基于自然语言指令的自动驾驶提供了新范式 - 通过大规模数据集和实验验证了方法的有效性，在规划性能和指令跟随能力上均表现优异 - 推动了自动驾驶系统向更智能、个性化方向发展，为未来人车交互提供了技术基础

维加：通过自然语言指令学习驾驶
Vega: Learning to Drive with Natural Language Instructions

📊 核心分析

维加：通过自然语言指令学习驾驶 Vega: Learning to Drive with Natural Language Instructions

📊 核心分析

维加：通过自然语言指令学习驾驶
Vega: Learning to Drive with Natural Language Instructions