当前用于训练视觉-语言-动作(Vision-Language-Action, VLA)模型的云端流水线存在缺陷:它们依赖通用的视觉-语言模型(Vision-Language Models, VLMs),这些模型基于2D图像-文本进行预训练,缺乏对三维几何的推理能力和对特定领域(如具身环境)的语义理解。这导致了模型能力与环境需求之间的不匹配。
论文提出了XEmbodied基础模型,其核心方法包括:
- 通过一个结构化的3D适配器(3D Adapter)集成几何表示(如占据栅格(occupancy grids)、3D边界框(3D boxes)),而非将其作为辅助输入。
- 使用一个高效的图像-具身适配器(Efficient Image-Embodied Adapter)将物理信号提炼为上下文令牌(context tokens)。
- 采用渐进式领域课程(progressive domain curriculum)和强化学习后训练(reinforcement learning post-training)来优化模型。
论文的核心创新点在于:
- **将几何与物理线索内化为模型核心能力**:与现有工作将几何信息作为外部辅助输入不同,XEmbodied通过专门的适配器架构,将3D几何表示和物理交互线索(如可通行性、物体属性)深度整合到VLM的表示空间中,使其具备**内在的(intrinsic)** 3D几何感知与物理推理能力。
- **面向大规模具身环境的专业化基础模型**:专门为大规模具身环境(如自动驾驶、机器人)的云端场景挖掘(scenario mining)和具身视觉问答(embodied VQA)任务设计,在保持通用VLM能力的同时,显著增强了空间推理、交通语义、具身可供性(embodied affordance)和分布外泛化(out-of-distribution generalization)等关键能力。
论文的整体贡献是提出了XEmbodied这一新型基础模型,它通过创新的架构设计和训练策略,有效解决了通用VLM在复杂具身环境中几何与物理推理能力不足的问题。该模型在18个公开基准测试中展现了鲁棒的性能,为大规模具身环境下的场景理解、任务规划和智能体决策提供了更强大的云端基础模型支持。