- 现有**人形机器人( humanoid robot)** 控制方法通常需要针对不同运动模式(如行走、跑步、跌倒恢复)分别训练策略,部署时依赖显式模式切换逻辑,增加复杂性和失败风险
- **对抗性运动先验(Adversarial Motion Priors, AMP)** 虽然能生成自然运动,但使用单一全局参考分布无法覆盖多样化的运动状态,尤其在面对跌倒后的大姿态偏离时表现不佳
- 研究背景:要求单一策略在硬件上无缝执行行走、跑步和跌倒恢复,且无需运行时模式逻辑,对**鲁棒性(robustness)** 和**通用性(generality)** 提出挑战
- 提出**状态依赖对抗性运动先验(State-Dependent Adversarial Motion Priors)** 框架,扩展AMP,用**状态依赖门(state-dependent gate)** 将训练中的每个转移路由至两个判别器之一
- 门基于**投影重力(projected gravity)** 的固定阈值:当身体倾斜超过约37°(即|g_z+1|>0.6)时激活**恢复判别器(recovery discriminator)**;否则激活**速度条件运动判别器(velocity-conditioned locomotion discriminator)**,以归一化命令速度为条件选择行走或跑步参考轨迹
- 仅使用3个**LAFAN1参考片段(reference clips)** (分别对应行走、跑步、恢复)即可正则化完整行为集;部署时单个冻结ONNX策略以50Hz运行,无显式模式切换逻辑
- **状态依赖判别器门控**:首次将AMP中的单一全局判别器替换为基于重力投影的二元门控,实现对大姿态偏离(跌倒)与常规步态的自动区分,无需人工干预
- **极简参考数据**:仅用3个LAFAN1参考片段覆盖行走、跑步、恢复三种行为,大幅降低对**运动捕捉数据(motion capture data)** 的需求
- **零运行时模式切换**:在部署时策略完全自主根据状态选择行为,硬件实验中成功演示从俯卧和仰卧跌倒恢复以及行走-跑步平滑过渡,证明了框架的**统一性(unification)** 和**实际可用性(practical usability)**
- 为**人形机器人全向运动控制(holistic locomotion control)** 提供了一种统一且简单的**强化学习(reinforcement learning)** 范式,无需显式模式切换指令
- 在Unitree G1实物硬件上验证了单一策略同时处理行走、跑步和跌倒恢复的能力,填补了现有工作缺乏统一跌倒恢复和步态切换的空白
- 推动了**对抗性运动先验(AMP)** 的实用化扩展,通过状态依赖门控使判别器架构适应复杂、非平稳的运动场景,为后续研究提供了可复现的基线方法