基于状态依赖的对抗运动先验的人形机器人统一行走、跑步与恢复

📝 论文摘要

我们提出一个统一的强化学习框架，使单个策略能够在Unitree G1人形机器人上执行行走、奔跑和跌倒恢复，并在物理硬件上验证，部署时无需任何显式的模式切换指令。该框架扩展了对抗性运动先验（AMP），用状态依赖的门控替代传统的全局参考分布，该门控将每次训练转换路由到两个判别器之一：专用恢复判别器和速度条件运动判别器（联合覆盖行走和奔跑）。该门控由投影重力上的单个固定阈值定义：当身体倾斜超过垂直方向约37°时（|g_z+1|>0.6），激活恢复判别器；否则使用运动判别器，以归一化指令速度作为条件，在行走和奔跑片段之间选择适当的参考轨迹。仅需三个LAFAN1参考片段即可正则化完整的动作集。部署时，单个冻结的ONNX策略以50Hz运行，无需运行时模式逻辑；硬件实验证明，在相同控制器下，既能成功从俯卧和仰卧跌倒中恢复，也能实现平滑的行走-奔跑过渡。

🎯 研究动机

- 现有**人形机器人( humanoid robot)** 控制方法通常需要针对不同运动模式（如行走、跑步、跌倒恢复）分别训练策略，部署时依赖显式模式切换逻辑，增加复杂性和失败风险 - **对抗性运动先验(Adversarial Motion Priors, AMP)** 虽然能生成自然运动，但使用单一全局参考分布无法覆盖多样化的运动状态，尤其在面对跌倒后的大姿态偏离时表现不佳 - 研究背景：要求单一策略在硬件上无缝执行行走、跑步和跌倒恢复，且无需运行时模式逻辑，对**鲁棒性(robustness)** 和**通用性(generality)** 提出挑战

🔧 核心方法

- 提出**状态依赖对抗性运动先验(State-Dependent Adversarial Motion Priors)** 框架，扩展AMP，用**状态依赖门(state-dependent gate)** 将训练中的每个转移路由至两个判别器之一 - 门基于**投影重力(projected gravity)** 的固定阈值：当身体倾斜超过约37°（即|g_z+1|>0.6）时激活**恢复判别器(recovery discriminator)**；否则激活**速度条件运动判别器(velocity-conditioned locomotion discriminator)**，以归一化命令速度为条件选择行走或跑步参考轨迹 - 仅使用3个**LAFAN1参考片段(reference clips)** （分别对应行走、跑步、恢复）即可正则化完整行为集；部署时单个冻结ONNX策略以50Hz运行，无显式模式切换逻辑

💡 核心创新

- **状态依赖判别器门控**：首次将AMP中的单一全局判别器替换为基于重力投影的二元门控，实现对大姿态偏离（跌倒）与常规步态的自动区分，无需人工干预 - **极简参考数据**：仅用3个LAFAN1参考片段覆盖行走、跑步、恢复三种行为，大幅降低对**运动捕捉数据(motion capture data)** 的需求 - **零运行时模式切换**：在部署时策略完全自主根据状态选择行为，硬件实验中成功演示从俯卧和仰卧跌倒恢复以及行走-跑步平滑过渡，证明了框架的**统一性(unification)** 和**实际可用性(practical usability)**

🏆 总体贡献

- 为**人形机器人全向运动控制(holistic locomotion control)** 提供了一种统一且简单的**强化学习(reinforcement learning)** 范式，无需显式模式切换指令 - 在Unitree G1实物硬件上验证了单一策略同时处理行走、跑步和跌倒恢复的能力，填补了现有工作缺乏统一跌倒恢复和步态切换的空白 - 推动了**对抗性运动先验(AMP)** 的实用化扩展，通过状态依赖门控使判别器架构适应复杂、非平稳的运动场景，为后续研究提供了可复现的基线方法

基于状态依赖的对抗运动先验的人形机器人统一行走、跑步与恢复
Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

📊 核心分析

基于状态依赖的对抗运动先验的人形机器人统一行走、跑步与恢复 Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

📊 核心分析

基于状态依赖的对抗运动先验的人形机器人统一行走、跑步与恢复
Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors