← 返回论文列表

UniDriveVLA:自动驾驶中理解、感知与行动规划的统一框架
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

作者: Yongkang Li, Lijun Zhou, Sixu Yan 等14人
arXiv: 2604.02190v1
分类: cs.CV, cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型近期在自动驾驶领域崭露头角,其通过利用丰富的世界知识来提升驾驶系统的认知能力。然而,将此类模型应用于驾驶任务时,目前面临空间感知与语义推理之间的关键困境。因此,现有VLA系统不得不做出次优妥协:直接采用2D视觉-语言模型会导致空间感知能力有限,而通过3D空间表征增强又往往会损害VLM原有的推理能力。我们认为,这一困境主要源于空间感知与语义推理在共享模型参数中的耦合优化。为克服此问题,我们提出了UniDriveVLA——一个基于混合变换器的统一驾驶视觉-语言-动作模型,通过专家解耦机制解决感知与推理的冲突。具体而言,该模型包含驾驶理解、场景感知和动作规划三个专家模块,通过掩码联合注意力机制进行协同。此外,我们结合稀疏感知范式与三阶段渐进式训练策略,在保持语义推理能力的同时提升空间感知性能。大量实验表明,UniDriveVLA在nuScenes数据集的开环评估和Bench2Drive的闭环评估中均达到最先进水平。同时,该模型在感知、预测和理解等广泛任务中表现出强大性能,包括3D检测、在线建图、运动预测和驾驶导向的视觉问答,彰显其作为自动驾驶统一模型的广泛适用性。代码与模型已发布于https://github.com/xiaomi-research/unidrivevla。

📊 核心分析

🎯 研究动机
该论文旨在解决自动驾驶领域视觉-语言-动作(Vision-Language-Action, VLA)模型面临的一个关键困境:在空间感知(spatial perception)与语义推理(semantic reasoning)能力之间难以取得平衡。现有VLA系统存在两种次优妥协:直接采用2D视觉-语言模型(Vision-Language Models, VLMs)会导致空间感知能力有限,而用3D空间表征增强它们又往往会损害VLMs原有的推理能力。研究背景是VLA模型在自动驾驶中展现出利用丰富世界知识提升系统认知能力的潜力,但感知与推理的耦合优化阻碍了其发展。
🔧 核心方法
论文提出了UniDriveVLA,一个基于混合专家(Mixture-of-Transformers)的统一驾驶视觉-语言-动作模型。其核心方法包括: - **专家解耦(Expert Decoupling)**:设计了三个独立的专家模块,分别负责驾驶理解(driving understanding)、场景感知(scene perception)和动作规划(action planning)。 - **掩码联合注意力(Masked Joint Attention)**:通过该机制协调三个专家模块之间的交互。 - **稀疏感知范式(Sparse Perception Paradigm)**:用于提升空间感知能力。 - **三阶段渐进式训练策略(Three-stage Progressive Training Strategy)**:旨在提升空间感知的同时,保持模型的语义推理能力。
💡 核心创新
论文的核心创新点在于通过**专家解耦(Expert Decoupling)**的架构设计,从根本上解决了自动驾驶VLA模型中空间感知与语义推理的冲突。其独特之处在于: - **架构创新**:不同于现有工作将感知与推理耦合在共享参数中优化,UniDriveVLA将二者解耦为独立的专家模块(理解、感知、规划),并通过掩码联合注意力进行协调,实现了“专才专用”。 - **训练策略创新**:结合稀疏感知与渐进式训练,在提升3D空间感知精度的同时,有效保护了预训练VLMs强大的语义推理先验知识,避免了能力退化。 - **统一模型定位**:首次在一个统一模型中同时胜任感知(如3D检测、在线建图)、预测(运动预测)、理解(驾驶导向VQA)和规划(动作生成)等广泛任务,展示了强大的通用性。
🏆 总体贡献
论文对该领域的整体贡献包括: - **提出并验证了新架构**:提出了基于专家解耦的UniDriveVLA模型,为破解自动驾驶VLA模型的感知-推理困境提供了有效的解决方案。 - **实现了卓越性能**:在nuScenes数据集的开环评估和Bench2Drive数据集的闭环评估中均达到了最先进的(state-of-the-art)性能。 - **展示了广泛适用性**:模型在3D检测、在线建图、运动预测、驾驶导向视觉问答(VQA)等一系列感知、预测和理解任务上均表现出强大性能,证明了其作为自动驾驶统一模型的广泛潜力。 - **开源了代码与模型**:促进了相关领域的研究复现与进一步发展。