Dexora：面向高自由度双臂灵巧操作的开源VLA

📝 论文摘要

视觉-语言-动作（VLA）模型近来已成为具身人工智能的核心方向，但当前系统局限于双夹爪控制或单臂灵巧手操作。低维夹爪控制通常可通过简单方法处理，而高维灵巧手控制则显著受益于完整的端到端VLA学习。本文提出Dexora——首个原生面向双臂双手高自由度操作的VLA开源系统。我们设计了一种混合遥操作流水线，将粗略的手臂运动学（通过定制外骨骼背包捕获）与精细的手指运动（通过Apple Vision Pro进行无标记手部跟踪）解耦，并同时驱动物理双臂双手平台及其对应的MuJoCo数字孪生模型。基于该接口，我们构建了大规模训练语料库：体匹配的合成语料库（10万条模拟轨迹，650万帧）和包含1万个遥操作片段的真实世界数据集（292万帧）。为缓解含噪声的遥操作演示，我们提出了一种数据质量感知的训练方案：离线鉴别器为扩散Transformer策略训练提供片段级权重，降低低质量演示的权重。实验表明，Dexora在基础任务和灵巧操作基准测试中均优于竞争力强的VLA基线模型（例如，灵巧任务平均成功率66.7%对比51.7%），在基础任务上达到90%成功率，并展现出稳健的分布外及跨具身泛化能力。消融实验证实了真实数据及鉴别器对灵巧操作的重要性。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型多局限于双夹爪控制或单臂灵巧手操作，无法支持双臂双手高自由度(high-DoF)灵巧操作 - 高自由度灵巧手控制难以用简单方法处理，亟需端到端(end-to-end) VLA学习 - 研究背景：具身智能(embodied AI)需要更通用的双灵巧手VLA系统

🔧 核心方法

- 设计**混合遥操作管线(hybrid teleoperation pipeline)**：使用定制外骨骼背包捕捉粗粒的手臂运动(arm kinematics)，通过Apple Vision Pro进行无标记手部追踪(markerless hand tracking)实现精细手指运动 - 构建双平台（实体双臂双手平台与MuJoCo数字孪生），采集**合成语料** （10万模拟轨迹，650万帧）和**真实数据集** （1万遥操作片段，292万帧） - 提出**数据质量感知训练配方(data-quality-aware training recipe)**：训练离线判别器(offline discriminator)为扩散-Transformer策略(diffusion-transformer policy)提供片段级权值，降低低质量演示的影响

💡 核心创新

- **首创性**：首个开源的原生支持双臂双手高DoF操纵的VLA系统，填补了双灵巧手领域的空白 - **解耦遥操作**：将粗手臂运动与精细手指运动解耦，同时驱动物理平台与数字孪生，降低数据采集难度 - **数据质量感知训练**：引入离线判别器加权机制，有效抑制噪声演示对策略训练的干扰，提升灵巧操作鲁棒性 - **跨物体(out-of-distribution)与跨实体(cross-embodiment)泛化能力** 显著优于现有基线

🏆 总体贡献

- 为双臂双手高自由度灵巧操作提供了第一个开源VLA系统及完整训练框架 - 在基础任务上达到90%成功率，灵巧任务平均成功率66.7% vs 基线51.7%，刷新领域最佳 - 消融实验证实了真实数据与判别器对灵巧性的关键作用，为后续数据清洗与策略学习提供参考 - 开源大规模多模态数据集（合成+真实）和代码，促进具身智能社区复现与进一步发展

Dexora：面向高自由度双臂灵巧操作的开源VLA
Dexora: Open-source VLA for High-DoF Bimanual Dexterity

📊 核心分析

Dexora：面向高自由度双臂灵巧操作的开源VLA Dexora: Open-source VLA for High-DoF Bimanual Dexterity

📊 核心分析

Dexora：面向高自由度双臂灵巧操作的开源VLA
Dexora: Open-source VLA for High-DoF Bimanual Dexterity