- 现有具身智能研究常针对单个任务(如操作、导航)设计专用模型,导致能力碎片化,跨任务、环境和机器人形态的泛化能力有限
- 研究背景:具身智能需要统一的模型来解决异构的决策问题,但缺乏能够同时处理多种任务和环境的基础模型
- 核心挑战:如何将异质的具身决策问题(操作、导航、轨迹预测)统一到一个**视觉-语言-动作(Vision-Language-Action, VLA)** 模型中,并支持多种机器人平台
- 提出**Qwen-VLA**,基于Qwen的视觉-语言模型栈,通过**DiT(Diffusion Transformer)动作解码器(DiT-based action decoder)** 将感知、理解、推理扩展到连续动作和轨迹生成
- 采用大规模联合预训练策略,融合多样数据源:机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据
- 引入**具身感知提示调节(embodiment-aware prompt conditioning)**,通过机器人特定的文本描述指定当前形态和控制约定,支持多种机器人平台
- 将操作、导航和轨迹预测统一为**动作-轨迹预测框架(action-and-trajectory prediction framework)**,实现跨机器人形态、任务家族和环境的可迁移视觉基础、空间推理和连续动作生成
- **统一异构具身决策**:首次将操作、导航、轨迹预测等异质决策问题整合到一个**单一VLA模型** 中,而非为每个任务设计专用模型
- **具身感知提示(embodiment-aware prompt)**:通过文本描述解耦机器人形态与控制约定,使模型无需重新训练即可适应不同机器人平台
- **DiT动作解码器**:使用**扩散Transformer(Diffusion Transformer)** 生成连续动作和轨迹,替代传统的离散动作预测或回归,提升生成质量和多样性
- **大规模多源联合预训练**:融合真实机器人数据、人类演示、仿真数据和导航数据,实现跨数据类型的知识迁移,增强泛化能力
- 提供了一个统一的**具身基础模型(embodied foundation model)**,在操作、导航和轨迹中心基准上取得一致的多任务性能和超越分布的泛化能力(如LIBERO 97.9%,R2R 69.0% OSR等)
- 开源模型**Qwen-VLA-Instruct**,支持实际机器人部署(ALOHA实验平均OOD成功76.9%,DOMINO零样本26.6%),推动具身智能的通用化
- 提出**具身感知提示** 和**统一动作-轨迹预测框架**,为未来跨平台、跨任务的VLA研究提供了可复现的范式