ReActor：面向物理感知动作重定向的强化学习

📝 论文摘要

将人类运动学参考运动重定向至机器人形态仍是一项艰巨挑战。现有方法常产生物理不一致性，如足部滑动、自碰撞或动态不可行运动，这阻碍了下游的模仿学习。我们提出了一种双层优化框架，该框架在利用强化学习训练跟踪策略的同时，联合调整参考运动以适应机器人形态。为使优化可解，我们推导了上层损失函数的近似梯度。我们的框架仅需稀疏的语义刚体对应关系，并通过识别足以保留不同实体间特征运动的表现力参数化的最优值，消除了手动调参需求。此外，通过将重定向与物理模拟直接集成，我们生成了物理上合理的运动，从而促进鲁棒的模仿学习。我们在仿真和硬件上验证了该方法，展示了针对与人类形态显著不同的机器人（包括四足机器人）重定向的挑战性运动。

🎯 研究动机

- 解决**人体运动重定向(human motion retargeting)** 到机器人形态时产生的**物理不一致** 问题，如**脚滑(foot sliding)**、**自碰撞(self-collisions)** 和**动态不可行(dynamically infeasible)** 运动。 - 现有方法生成的参考运动缺乏物理合理性，阻碍下游的**模仿学习(imitation learning)**。 - 研究背景：机器人与人体形态差异显著，手动调整运动参数费时且难以保证物理可行性。

🔧 核心方法

- 提出**双层优化(bilevel optimization)框架**，上层优化调整参考运动以适应机器人形态，下层使用**强化学习(reinforcement learning)** 训练跟踪策略。 - 推导**上层损失的上层梯度近似(approximate gradient for the upper-level loss)**，使双层优化可求解。 - 仅需**稀疏语义刚体对应(sparse set of semantic rigid-body correspondences)**，无需手动调参，通过优化找到**参数化表达(parameterization)** 的最优值以保持特征运动。 - 将重定向过程直接集成到**物理仿真(physics simulation)** 中，生成物理合理的运动。

💡 核心创新

- **联合优化( joint optimization)**：首次在重定向与跟踪策略训练之间建立**端到端(end-to-end)** 的双层优化框架，而非独立处理。 - **梯度近似技术**：通过推导**近似梯度(approximate gradient)** 解决了双层优化中上层损失不可微的难题。 - **自动调参**：无需手动调整运动参数，算法自动找到最优参数化值，保留不同形态下的特征运动。 - **物理仿真集成**：重定向直接与物理仿真结合，确保输出运动的**物理合理性(physical plausibility)**，利于鲁棒的模仿学习。

🏆 总体贡献

- 为**物理感知运动重定向(physics-aware motion retargeting)** 提供了一种无需人工调整、自动生成物理合理运动的新范式。 - 在**形态差异显著** 的场景（如重定向到**四足机器人(quadruped)**）上验证了方法的有效性和泛化能力。 - 在仿真和硬件实验中展示了具有挑战性的运动，证明该方法能够促进**鲁棒的模仿学习(robust imitation learning)**。 - 仅需**稀疏语义对应**，降低了依赖密集标注或手工设计的门槛，易于推广到新机器人形态。

ReActor：面向物理感知动作重定向的强化学习
ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting

📊 核心分析

ReActor：面向物理感知动作重定向的强化学习 ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting

📊 核心分析

ReActor：面向物理感知动作重定向的强化学习
ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting