- 现有**视觉-语言-动作模型(Visual-Language-Action, VLA)** 虽具备通用智能,但在复杂真实世界任务中缺乏更广泛的功能能力,如**运动感知(motion awareness)**、**记忆决策(memory-aware decision making)** 和**物理感知(physical sensing)**
- 当前VLA模型仅擅长场景理解与语言条件泛化,无法应对多模态、接触密集的动态灵巧操作需求
- 研究背景:预训练VLM赋予VLA通用能力,但仍需突破功能瓶颈以提升机器人策略的可靠性
- 提出**多流动作变换器(Multi-Stream Action Transformer, MSAT)** 架构,通过**模态特定流(modality-specific streams)** 与**跨模态联合自注意力(cross-modal joint self-attention)** 统一异构模态
- 结合系统级设计:合成稀有操作场景的训练数据、专用于类人操作的学习流程、针对实时部署的推理优化
- 在ALLEX人形机器人上部署,控制高自由度(high-DoF)人形机器人完成灵巧操作
- **架构创新**:MSAT首次将运动感知、记忆决策和物理感知通过多流与跨模态注意力整合为统一策略,而非简单拼接VLM与动作头
- **性能突破**:在ALLEX人形任务上达到**86.8%成功率**,远超现有前沿VLA(π₀.5和GR00T N1.6约40%),证明对复杂功能需求的适应性
- **系统设计**:数据合成、学习流程和推理优化共同提升了真实世界灵巧操作的实用性与鲁棒性
- 为灵巧操作领域提供了**通用机器人策略RLDX-1**,显著扩展了VLA的功能边界
- 在仿真基准和真实世界任务上均达到**SOTA(state-of-the-art)** 性能,尤其在高自由度人形机器人控制中展现优势
- 通过开源技术报告与实证分析,为构建可靠、动态、接触密集的VLA策略奠定了新范式