RPG：面向人形格斗中平滑多技能转换的鲁棒策略门控机制

RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting

作者: Yucheng Xin, Jiacheng Bao, Yubo Dong 等8人

arXiv: 2604.21355v1

分类: cs.RO

📝 论文摘要

类人机器人在广泛任务中展现出令人瞩目的运动技能，然而，由于对敏捷性和稳定性的严苛要求，实现类人长时间动态搏斗的全身控制仍极具挑战性。尽管模仿学习使机器人能够执行类人搏斗技能，但现有方法通常依赖于在多个单一技能策略间切换，或采用通用策略模仿输入参考动作。这些策略在技能转换时存在不稳定性问题，因为不同技能或参考动作的初始与终端状态不匹配会引发域外扰动，导致行为不流畅或不稳定。为此，本文提出RPG混合专家策略框架，以实现平滑稳定的人形机器人多技能转换。该方法通过引入动作转换随机化与时间随机化，训练统一策略在技能转换过程中生成兼具稳定性与流畅性的敏捷搏斗动作。此外，我们设计了融合行走/奔跑运动与搏斗技能的控制流水线，支持任意时长的类人持续搏斗，可随时无缝中断或切换动作策略。仿真实验充分验证了所提框架的有效性，而在宇树G1人形机器人上的实际部署进一步证明了其鲁棒性与适用性。

📊 核心分析

🎯 研究动机

人形机器人在执行长时间、动态的类人搏斗任务时，对敏捷性和稳定性要求极高，现有方法（如切换多个单技能策略或使用通用策略模仿参考运动）在技能切换时因初始与终止状态不匹配或参考运动引入的域外扰动，导致行为不稳定或不平滑。

🔧 核心方法

提出了一种混合专家策略框架RPG，通过运动过渡随机化(motion transition randomization)和时间随机化(temporal randomization)训练统一策略，并设计了一个将行走/奔跑运动与搏斗技能集成的控制管线，支持任意时长的类人连续战斗，可随时无缝中断或切换动作策略。

💡 核心创新

1. 提出运动过渡随机化和时间随机化技术，用于训练统一策略，确保技能切换时的平滑性和稳定性；2. 设计集成行走/奔跑与搏斗技能的控制管线，实现任意时长的类人连续战斗且支持随时中断或切换策略。

🏆 总体贡献

提出了一种鲁棒的策略门控框架RPG，解决了人形机器人多技能切换中的不稳定问题，在仿真和真实Unitree G1机器人上验证了其有效性、鲁棒性和实用性，推动了人形机器人动态搏斗任务的实际应用。