← 返回论文列表

ReActor:面向物理感知动作重定向的强化学习
ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting

作者: David Müller, Agon Serifi, Sammy Christen 等6人
arXiv: 2605.06593v1
分类: cs.RO, cs.GR, cs.LG
📝 论文摘要
将人类运动学参考运动重定向至机器人形态仍是一项艰巨挑战。现有方法常产生物理不一致性,如足部滑动、自碰撞或动态不可行运动,这阻碍了下游的模仿学习。我们提出了一种双层优化框架,该框架在利用强化学习训练跟踪策略的同时,联合调整参考运动以适应机器人形态。为使优化可解,我们推导了上层损失函数的近似梯度。我们的框架仅需稀疏的语义刚体对应关系,并通过识别足以保留不同实体间特征运动的表现力参数化的最优值,消除了手动调参需求。此外,通过将重定向与物理模拟直接集成,我们生成了物理上合理的运动,从而促进鲁棒的模仿学习。我们在仿真和硬件上验证了该方法,展示了针对与人类形态显著不同的机器人(包括四足机器人)重定向的挑战性运动。

📊 核心分析

🎯 研究动机
- 解决**人体运动重定向(human motion retargeting)** 到机器人形态时产生的**物理不一致** 问题,如**脚滑(foot sliding)**、**自碰撞(self-collisions)** 和**动态不可行(dynamically infeasible)** 运动。 - 现有方法生成的参考运动缺乏物理合理性,阻碍下游的**模仿学习(imitation learning)**。 - 研究背景:机器人与人体形态差异显著,手动调整运动参数费时且难以保证物理可行性。
🔧 核心方法
- 提出**双层优化(bilevel optimization)框架**,上层优化调整参考运动以适应机器人形态,下层使用**强化学习(reinforcement learning)** 训练跟踪策略。 - 推导**上层损失的上层梯度近似(approximate gradient for the upper-level loss)**,使双层优化可求解。 - 仅需**稀疏语义刚体对应(sparse set of semantic rigid-body correspondences)**,无需手动调参,通过优化找到**参数化表达(parameterization)** 的最优值以保持特征运动。 - 将重定向过程直接集成到**物理仿真(physics simulation)** 中,生成物理合理的运动。
💡 核心创新
- **联合优化( joint optimization)**:首次在重定向与跟踪策略训练之间建立**端到端(end-to-end)** 的双层优化框架,而非独立处理。 - **梯度近似技术**:通过推导**近似梯度(approximate gradient)** 解决了双层优化中上层损失不可微的难题。 - **自动调参**:无需手动调整运动参数,算法自动找到最优参数化值,保留不同形态下的特征运动。 - **物理仿真集成**:重定向直接与物理仿真结合,确保输出运动的**物理合理性(physical plausibility)**,利于鲁棒的模仿学习。
🏆 总体贡献
- 为**物理感知运动重定向(physics-aware motion retargeting)** 提供了一种无需人工调整、自动生成物理合理运动的新范式。 - 在**形态差异显著** 的场景(如重定向到**四足机器人(quadruped)**)上验证了方法的有效性和泛化能力。 - 在仿真和硬件实验中展示了具有挑战性的运动,证明该方法能够促进**鲁棒的模仿学习(robust imitation learning)**。 - 仅需**稀疏语义对应**,降低了依赖密集标注或手工设计的门槛,易于推广到新机器人形态。