Qwen-VLA: 跨任务、环境和机器人本体的统一视觉-语言-动作建模

📝 论文摘要

具身智能通常通过针对操控或导航等单一任务的专门模型进行研究，这导致能力碎片化，且在跨任务、跨环境及跨机器人形态的泛化能力有限。本文探究异质化具身决策问题能否统一纳入单个视觉-语言-动作模型。我们提出Qwen-VLA，一种统一的具身基础模型，它将Qwen的视觉-语言建模栈从感知、理解和推理扩展至连续动作与轨迹生成，通过基于扩散变换器（DiT）的动作解码器实现。该模型通过大规模联合预训练策略，在多种数据源上训练，包括机器人操控轨迹、人类第一人称示范、合成仿真数据、视觉-语言导航数据、轨迹中心监督信号以及辅助视觉-语言数据。为支持多种机器人平台，我们引入具身感知提示调节机制，通过机器人特指文本描述指定当前具身形态和控制约定。进一步将操控、导航和轨迹预测统一为动作与轨迹联合预测框架，实现跨机器人形态、任务族和环境的可迁移视觉定位、空间推理及连续动作生成。在操控、导航及轨迹中心基准上的实验表明，模型在场景布局、背景、光照、物体配置及机器人形态变化下展现出一致的多任务性能与分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达97.9%，Simpler-WidowX上达73.7%，RoboTwin-Easy/Hard上达86.1%/87.2%，R2R上OSR达69.0%，RxR上SR达59.6%，真实世界ALOHA实验中平均OOD成功率达76.9%，DOMINO动态操控零样本成功率达26.6%。

🎯 研究动机

- 现有具身智能研究常针对单个任务（如操作、导航）设计专用模型，导致能力碎片化，跨任务、环境和机器人形态的泛化能力有限 - 研究背景：具身智能需要统一的模型来解决异构的决策问题，但缺乏能够同时处理多种任务和环境的基础模型 - 核心挑战：如何将异质的具身决策问题（操作、导航、轨迹预测）统一到一个**视觉-语言-动作(Vision-Language-Action, VLA)** 模型中，并支持多种机器人平台

🔧 核心方法

- 提出**Qwen-VLA**，基于Qwen的视觉-语言模型栈，通过**DiT(Diffusion Transformer)动作解码器(DiT-based action decoder)** 将感知、理解、推理扩展到连续动作和轨迹生成 - 采用大规模联合预训练策略，融合多样数据源：机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据 - 引入**具身感知提示调节(embodiment-aware prompt conditioning)**，通过机器人特定的文本描述指定当前形态和控制约定，支持多种机器人平台 - 将操作、导航和轨迹预测统一为**动作-轨迹预测框架(action-and-trajectory prediction framework)**，实现跨机器人形态、任务家族和环境的可迁移视觉基础、空间推理和连续动作生成

💡 核心创新

- **统一异构具身决策**：首次将操作、导航、轨迹预测等异质决策问题整合到一个**单一VLA模型** 中，而非为每个任务设计专用模型 - **具身感知提示(embodiment-aware prompt)**：通过文本描述解耦机器人形态与控制约定，使模型无需重新训练即可适应不同机器人平台 - **DiT动作解码器**：使用**扩散Transformer(Diffusion Transformer)** 生成连续动作和轨迹，替代传统的离散动作预测或回归，提升生成质量和多样性 - **大规模多源联合预训练**：融合真实机器人数据、人类演示、仿真数据和导航数据，实现跨数据类型的知识迁移，增强泛化能力

🏆 总体贡献

- 提供了一个统一的**具身基础模型(embodied foundation model)**，在操作、导航和轨迹中心基准上取得一致的多任务性能和超越分布的泛化能力（如LIBERO 97.9%，R2R 69.0% OSR等） - 开源模型**Qwen-VLA-Instruct**，支持实际机器人部署（ALOHA实验平均OOD成功76.9%，DOMINO零样本26.6%），推动具身智能的通用化 - 提出**具身感知提示** 和**统一动作-轨迹预测框架**，为未来跨平台、跨任务的VLA研究提供了可复现的范式

Qwen-VLA: 跨任务、环境和机器人本体的统一视觉-语言-动作建模
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

📊 核心分析

Qwen-VLA: 跨任务、环境和机器人本体的统一视觉-语言-动作建模 Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

📊 核心分析

Qwen-VLA: 跨任务、环境和机器人本体的统一视觉-语言-动作建模
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments