该论文旨在解决现有自动驾驶系统中语言模态利用不足的问题。研究背景是:
- 现有视觉-语言-动作(vision-language-action)模型主要将语言用于场景描述或推理
- 缺乏根据多样化用户指令进行个性化驾驶的灵活性
论文提出了一种统一的视觉-语言-世界-动作(vision-language-world-action)模型Vega,具体方法包括:
- 构建大规模驾驶数据集InstructScene(约10万个场景,包含多样化驾驶指令及对应轨迹)
- 采用自回归(autoregressive)范式处理视觉输入和语言指令
- 使用扩散(diffusion)范式生成未来预测(世界建模)和轨迹(动作)
- 通过联合注意力(joint attention)实现多模态交互
- 为不同模态使用独立的投影层以增强模型能力
论文的核心创新点在于:
- 首次提出统一的视觉-语言-世界-动作(vision-language-world-action)四模态融合框架,将世界建模(world modeling)作为独立模态引入
- 创新性地结合自回归(autoregressive)和扩散(diffusion)两种生成范式,分别处理不同模态任务
- 构建首个大规模指令驱动驾驶数据集InstructScene,支持多样化个性化指令
- 实现了真正的指令跟随式驾驶规划,而非仅将语言用于场景理解
论文对该领域的整体贡献包括:
- 提出Vega模型框架,为基于自然语言指令的自动驾驶提供了新范式
- 通过大规模数据集和实验验证了方法的有效性,在规划性能和指令跟随能力上均表现优异
- 推动了自动驾驶系统向更智能、个性化方向发展,为未来人车交互提供了技术基础