该论文旨在解决自动驾驶领域视觉-语言-动作(Vision-Language-Action, VLA)模型面临的一个关键困境:在空间感知(spatial perception)与语义推理(semantic reasoning)能力之间难以取得平衡。现有VLA系统存在两种次优妥协:直接采用2D视觉-语言模型(Vision-Language Models, VLMs)会导致空间感知能力有限,而用3D空间表征增强它们又往往会损害VLMs原有的推理能力。研究背景是VLA模型在自动驾驶中展现出利用丰富世界知识提升系统认知能力的潜力,但感知与推理的耦合优化阻碍了其发展。
论文提出了UniDriveVLA,一个基于混合专家(Mixture-of-Transformers)的统一驾驶视觉-语言-动作模型。其核心方法包括:
- **专家解耦(Expert Decoupling)**:设计了三个独立的专家模块,分别负责驾驶理解(driving understanding)、场景感知(scene perception)和动作规划(action planning)。
- **掩码联合注意力(Masked Joint Attention)**:通过该机制协调三个专家模块之间的交互。
- **稀疏感知范式(Sparse Perception Paradigm)**:用于提升空间感知能力。
- **三阶段渐进式训练策略(Three-stage Progressive Training Strategy)**:旨在提升空间感知的同时,保持模型的语义推理能力。
论文的核心创新点在于通过**专家解耦(Expert Decoupling)**的架构设计,从根本上解决了自动驾驶VLA模型中空间感知与语义推理的冲突。其独特之处在于:
- **架构创新**:不同于现有工作将感知与推理耦合在共享参数中优化,UniDriveVLA将二者解耦为独立的专家模块(理解、感知、规划),并通过掩码联合注意力进行协调,实现了“专才专用”。
- **训练策略创新**:结合稀疏感知与渐进式训练,在提升3D空间感知精度的同时,有效保护了预训练VLMs强大的语义推理先验知识,避免了能力退化。
- **统一模型定位**:首次在一个统一模型中同时胜任感知(如3D检测、在线建图)、预测(运动预测)、理解(驾驶导向VQA)和规划(动作生成)等广泛任务,展示了强大的通用性。
论文对该领域的整体贡献包括:
- **提出并验证了新架构**:提出了基于专家解耦的UniDriveVLA模型,为破解自动驾驶VLA模型的感知-推理困境提供了有效的解决方案。
- **实现了卓越性能**:在nuScenes数据集的开环评估和Bench2Drive数据集的闭环评估中均达到了最先进的(state-of-the-art)性能。
- **展示了广泛适用性**:模型在3D检测、在线建图、运动预测、驾驶导向视觉问答(VQA)等一系列感知、预测和理解任务上均表现出强大性能,证明了其作为自动驾驶统一模型的广泛潜力。
- **开源了代码与模型**:促进了相关领域的研究复现与进一步发展。