← 返回论文列表

面向从视频中进行人形机器人模仿学习的直接动态重定向
Direct Dynamic Retargeting for Humanoid Imitation Learning from Videos

作者: Constant Roux, Ludovic De Matteïs, Armand Jordana 等7人
arXiv: 2605.23762v1
分类: cs.RO
📝 论文摘要
单目视频演示的模仿学习为仿人机器人学习复杂技能提供了一种可扩展的方法。然而,将人类运动转化为仿人机器人动作需克服显著的运动形态不匹配问题。现有标准方法依赖几何重定向或间接动态重定向管线。我们发现,这些中间运动学投影引入了几何偏差,限制了搜索空间并导致次优的动态行为。本文提出直接动态重定向(DDR),一种新颖的单阶段框架,可直接从专家视频生成高保真度、动态可行的轨迹。通过将问题定义在任务空间,并利用物理仿真器中基于采样的模型预测控制求解器,DDR在缓解输入漂移的同时,原生优化复杂接触序列。实验表明,绕过几何偏差使DDR在演示跟踪精度上优于最先进基线方法。此外,我们证实为强化学习智能体提供此类物理可行的参考可加速训练收敛,并提升敏捷与平衡行为的最终执行表现。源代码将公开发布。

📊 核心分析

🎯 研究动机
- 从单目视频演示进行类人机器人模仿学习时,需要克服**形态学不匹配(morphological mismatch)** 问题 - 现有标准方法(**几何重定向(Geometric Retargeting)** 或**间接动态重定向(Indirect Dynamic Retargeting)**)引入中间运动学投影,导致**几何偏差(geometric bias)**,限制搜索空间并产生次优动态行为 - 需要一种单阶段框架,直接从视频生成高保真、动态可行的轨迹,避免中间偏差
🔧 核心方法
- 提出**直接动态重定向(Direct Dynamic Retargeting, DDR)**,一种单阶段框架,直接从专家视频生成轨迹 - 在**任务空间(task space)** 中制定问题,并利用物理模拟器内的**基于采样的模型预测控制(sampling-based Model Predictive Control, MPC)** 求解器进行优化 - 原生处理复杂接触序列,同时通过任务空间公式化减轻**输入漂移(input drift)**
💡 核心创新
- **首次提出单阶段重定向**:绕过中间运动学投影,直接优化动态可行轨迹,消除几何偏差 - **任务空间+MPC**:在物理模拟器中直接优化,生成高保真、动态可行的轨迹,相比传统流水线避免误差累积 - **为RL提供物理可行参考**:证明该轨迹可加速强化学习训练收敛并提升敏捷和平衡行为的最终执行质量
🏆 总体贡献
- 为类人机器人**模仿学习(imitation learning)** 提供了一种新颖的直接动态重定向范式,有效消除几何偏差 - 在标准演示跟踪任务上超越现有最先进基线,展示更高跟踪精度 - 揭示了提供物理可行参考对**强化学习(reinforcement learning)** 训练的重要促进作用 - 承诺开源代码,便于社区复现与后续研究