RLDX-1技术报告 - Yuki N 的世界

📝 论文摘要

尽管视觉-语言-动作模型（VLAs）凭借从预训练视觉-语言模型中继承的多功能智能（即广泛场景理解和语言条件泛化）在类人通用机器人策略方面取得了显著进展，但它们仍难以应对需要更广泛功能能力（如运动感知、记忆感知决策和物理感知）的复杂现实任务。为解决这一问题，我们提出RLDX-1——一种基于多流动作变换器（MSAT）的灵巧操作通用机器人策略。MSAT是一种通过模态特定流与跨模态联合自注意力机制整合异构模态、统一上述能力的架构。RLDX-1进一步将该架构与系统级设计选择相结合，包括为罕见操作场景合成训练数据、专用于类人操作的学习流程以及面向实时部署的推理优化。通过实证评估，我们证明RLDX-1在模拟基准测试和需要超越通用多功能性的广泛功能能力的现实任务中，均持续优于近期前沿VLA模型（如$π_{0.5}$和GR00T N1.6）。特别地，RLDX-1在ALLEX类人任务中展现出优势，成功率达86.8%，而$π_{0.5}$和GR00T N1.6的成功率约为40%，凸显了RLDX-1在多样化功能需求下控制高自由度类人机器人的能力。这些结果共同表明，RLDX-1是迈向面向复杂、高接触和动态现实世界灵巧操作的可靠VLA模型的重要一步。

🎯 研究动机

- 现有**视觉-语言-动作模型(Visual-Language-Action, VLA)** 虽具备通用智能，但在复杂真实世界任务中缺乏更广泛的功能能力，如**运动感知(motion awareness)**、**记忆决策(memory-aware decision making)** 和**物理感知(physical sensing)** - 当前VLA模型仅擅长场景理解与语言条件泛化，无法应对多模态、接触密集的动态灵巧操作需求 - 研究背景：预训练VLM赋予VLA通用能力，但仍需突破功能瓶颈以提升机器人策略的可靠性

🔧 核心方法

- 提出**多流动作变换器(Multi-Stream Action Transformer, MSAT)** 架构，通过**模态特定流(modality-specific streams)** 与**跨模态联合自注意力(cross-modal joint self-attention)** 统一异构模态 - 结合系统级设计：合成稀有操作场景的训练数据、专用于类人操作的学习流程、针对实时部署的推理优化 - 在ALLEX人形机器人上部署，控制高自由度(high-DoF)人形机器人完成灵巧操作

💡 核心创新

- **架构创新**：MSAT首次将运动感知、记忆决策和物理感知通过多流与跨模态注意力整合为统一策略，而非简单拼接VLM与动作头 - **性能突破**：在ALLEX人形任务上达到**86.8%成功率**，远超现有前沿VLA（π₀.5和GR00T N1.6约40%），证明对复杂功能需求的适应性 - **系统设计**：数据合成、学习流程和推理优化共同提升了真实世界灵巧操作的实用性与鲁棒性

🏆 总体贡献

- 为灵巧操作领域提供了**通用机器人策略RLDX-1**，显著扩展了VLA的功能边界 - 在仿真基准和真实世界任务上均达到**SOTA(state-of-the-art)** 性能，尤其在高自由度人形机器人控制中展现优势 - 通过开源技术报告与实证分析，为构建可靠、动态、接触密集的VLA策略奠定了新范式

RLDX-1技术报告
RLDX-1 Technical Report

📊 核心分析

RLDX-1技术报告 RLDX-1 Technical Report

📊 核心分析

RLDX-1技术报告
RLDX-1 Technical Report