- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型多局限于双夹爪控制或单臂灵巧手操作,无法支持双臂双手高自由度(high-DoF)灵巧操作
- 高自由度灵巧手控制难以用简单方法处理,亟需端到端(end-to-end) VLA学习
- 研究背景:具身智能(embodied AI)需要更通用的双灵巧手VLA系统
- 设计**混合遥操作管线(hybrid teleoperation pipeline)**:使用定制外骨骼背包捕捉粗粒的手臂运动(arm kinematics),通过Apple Vision Pro进行无标记手部追踪(markerless hand tracking)实现精细手指运动
- 构建双平台(实体双臂双手平台与MuJoCo数字孪生),采集**合成语料** (10万模拟轨迹,650万帧)和**真实数据集** (1万遥操作片段,292万帧)
- 提出**数据质量感知训练配方(data-quality-aware training recipe)**:训练离线判别器(offline discriminator)为扩散-Transformer策略(diffusion-transformer policy)提供片段级权值,降低低质量演示的影响
- **首创性**:首个开源的原生支持双臂双手高DoF操纵的VLA系统,填补了双灵巧手领域的空白
- **解耦遥操作**:将粗手臂运动与精细手指运动解耦,同时驱动物理平台与数字孪生,降低数据采集难度
- **数据质量感知训练**:引入离线判别器加权机制,有效抑制噪声演示对策略训练的干扰,提升灵巧操作鲁棒性
- **跨物体(out-of-distribution)与跨实体(cross-embodiment)泛化能力** 显著优于现有基线
- 为双臂双手高自由度灵巧操作提供了第一个开源VLA系统及完整训练框架
- 在基础任务上达到90%成功率,灵巧任务平均成功率66.7% vs 基线51.7%,刷新领域最佳
- 消融实验证实了真实数据与判别器对灵巧性的关键作用,为后续数据清洗与策略学习提供参考
- 开源大规模多模态数据集(合成+真实)和代码,促进具身智能社区复现与进一步发展