← 返回论文列表

Dexora:面向高自由度双臂灵巧操作的开源VLA
Dexora: Open-source VLA for High-DoF Bimanual Dexterity

作者: Zongzheng Zhang, Jingrui Pang, Zhuo Yang 等25人
arXiv: 2605.18722v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型近来已成为具身人工智能的核心方向,但当前系统局限于双夹爪控制或单臂灵巧手操作。低维夹爪控制通常可通过简单方法处理,而高维灵巧手控制则显著受益于完整的端到端VLA学习。本文提出Dexora——首个原生面向双臂双手高自由度操作的VLA开源系统。我们设计了一种混合遥操作流水线,将粗略的手臂运动学(通过定制外骨骼背包捕获)与精细的手指运动(通过Apple Vision Pro进行无标记手部跟踪)解耦,并同时驱动物理双臂双手平台及其对应的MuJoCo数字孪生模型。基于该接口,我们构建了大规模训练语料库:体匹配的合成语料库(10万条模拟轨迹,650万帧)和包含1万个遥操作片段的真实世界数据集(292万帧)。为缓解含噪声的遥操作演示,我们提出了一种数据质量感知的训练方案:离线鉴别器为扩散Transformer策略训练提供片段级权重,降低低质量演示的权重。实验表明,Dexora在基础任务和灵巧操作基准测试中均优于竞争力强的VLA基线模型(例如,灵巧任务平均成功率66.7%对比51.7%),在基础任务上达到90%成功率,并展现出稳健的分布外及跨具身泛化能力。消融实验证实了真实数据及鉴别器对灵巧操作的重要性。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型多局限于双夹爪控制或单臂灵巧手操作,无法支持双臂双手高自由度(high-DoF)灵巧操作 - 高自由度灵巧手控制难以用简单方法处理,亟需端到端(end-to-end) VLA学习 - 研究背景:具身智能(embodied AI)需要更通用的双灵巧手VLA系统
🔧 核心方法
- 设计**混合遥操作管线(hybrid teleoperation pipeline)**:使用定制外骨骼背包捕捉粗粒的手臂运动(arm kinematics),通过Apple Vision Pro进行无标记手部追踪(markerless hand tracking)实现精细手指运动 - 构建双平台(实体双臂双手平台与MuJoCo数字孪生),采集**合成语料** (10万模拟轨迹,650万帧)和**真实数据集** (1万遥操作片段,292万帧) - 提出**数据质量感知训练配方(data-quality-aware training recipe)**:训练离线判别器(offline discriminator)为扩散-Transformer策略(diffusion-transformer policy)提供片段级权值,降低低质量演示的影响
💡 核心创新
- **首创性**:首个开源的原生支持双臂双手高DoF操纵的VLA系统,填补了双灵巧手领域的空白 - **解耦遥操作**:将粗手臂运动与精细手指运动解耦,同时驱动物理平台与数字孪生,降低数据采集难度 - **数据质量感知训练**:引入离线判别器加权机制,有效抑制噪声演示对策略训练的干扰,提升灵巧操作鲁棒性 - **跨物体(out-of-distribution)与跨实体(cross-embodiment)泛化能力** 显著优于现有基线
🏆 总体贡献
- 为双臂双手高自由度灵巧操作提供了第一个开源VLA系统及完整训练框架 - 在基础任务上达到90%成功率,灵巧任务平均成功率66.7% vs 基线51.7%,刷新领域最佳 - 消融实验证实了真实数据与判别器对灵巧性的关键作用,为后续数据清洗与策略学习提供参考 - 开源大规模多模态数据集(合成+真实)和代码,促进具身智能社区复现与进一步发展