← 返回论文列表

XEmbodied:面向大规模具身环境的增强几何与物理线索基础模型
XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

作者: Kangan Qian, ChuChu Xie, Yang Zhong 等16人
arXiv: 2604.18484v1
分类: cs.CV, cs.MM, cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型驱动着新一代自主系统,但其训练需要来自复杂环境的可扩展、高质量标注。当前的云端流程依赖于通用视觉-语言模型(VLM),这些模型因其二维图像-文本预训练而缺乏几何推理和领域语义。为解决这一不匹配问题,我们提出了XEmbodied——一种云端基础模型,它赋予VLM内在的三维几何感知能力,并能与物理线索(如占据栅格、三维边界框)进行交互。XEmbodied并非将几何信息作为辅助输入,而是通过结构化三维适配器整合几何表征,并利用高效图像-具身适配器将物理信号提炼为上下文标记。通过渐进式领域课程学习和强化学习后训练,XEmbodied在保持通用能力的同时,在18个公共基准测试中展现出稳健性能。该模型显著提升了空间推理、交通语义、具身可供性以及面向大规模场景挖掘和具身视觉问答的分布外泛化能力。

📊 核心分析

🎯 研究动机
当前用于训练视觉-语言-动作(Vision-Language-Action, VLA)模型的云端流水线存在缺陷:它们依赖通用的视觉-语言模型(Vision-Language Models, VLMs),这些模型基于2D图像-文本进行预训练,缺乏对三维几何的推理能力和对特定领域(如具身环境)的语义理解。这导致了模型能力与环境需求之间的不匹配。
🔧 核心方法
论文提出了XEmbodied基础模型,其核心方法包括: - 通过一个结构化的3D适配器(3D Adapter)集成几何表示(如占据栅格(occupancy grids)、3D边界框(3D boxes)),而非将其作为辅助输入。 - 使用一个高效的图像-具身适配器(Efficient Image-Embodied Adapter)将物理信号提炼为上下文令牌(context tokens)。 - 采用渐进式领域课程(progressive domain curriculum)和强化学习后训练(reinforcement learning post-training)来优化模型。
💡 核心创新
论文的核心创新点在于: - **将几何与物理线索内化为模型核心能力**:与现有工作将几何信息作为外部辅助输入不同,XEmbodied通过专门的适配器架构,将3D几何表示和物理交互线索(如可通行性、物体属性)深度整合到VLM的表示空间中,使其具备**内在的(intrinsic)** 3D几何感知与物理推理能力。 - **面向大规模具身环境的专业化基础模型**:专门为大规模具身环境(如自动驾驶、机器人)的云端场景挖掘(scenario mining)和具身视觉问答(embodied VQA)任务设计,在保持通用VLM能力的同时,显著增强了空间推理、交通语义、具身可供性(embodied affordance)和分布外泛化(out-of-distribution generalization)等关键能力。
🏆 总体贡献
论文的整体贡献是提出了XEmbodied这一新型基础模型,它通过创新的架构设计和训练策略,有效解决了通用VLM在复杂具身环境中几何与物理推理能力不足的问题。该模型在18个公开基准测试中展现了鲁棒的性能,为大规模具身环境下的场景理解、任务规划和智能体决策提供了更强大的云端基础模型支持。