← 返回论文列表

基于状态依赖的对抗运动先验的人形机器人统一行走、跑步与恢复
Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

作者: Yidan Lu, Yichao Zhong, Liu Zhao 等5人
arXiv: 2605.18611v1
分类: cs.RO
📝 论文摘要
我们提出一个统一的强化学习框架,使单个策略能够在Unitree G1人形机器人上执行行走、奔跑和跌倒恢复,并在物理硬件上验证,部署时无需任何显式的模式切换指令。该框架扩展了对抗性运动先验(AMP),用状态依赖的门控替代传统的全局参考分布,该门控将每次训练转换路由到两个判别器之一:专用恢复判别器和速度条件运动判别器(联合覆盖行走和奔跑)。该门控由投影重力上的单个固定阈值定义:当身体倾斜超过垂直方向约37°时(|g_z+1|>0.6),激活恢复判别器;否则使用运动判别器,以归一化指令速度作为条件,在行走和奔跑片段之间选择适当的参考轨迹。仅需三个LAFAN1参考片段即可正则化完整的动作集。部署时,单个冻结的ONNX策略以50Hz运行,无需运行时模式逻辑;硬件实验证明,在相同控制器下,既能成功从俯卧和仰卧跌倒中恢复,也能实现平滑的行走-奔跑过渡。

📊 核心分析

🎯 研究动机
- 现有**人形机器人( humanoid robot)** 控制方法通常需要针对不同运动模式(如行走、跑步、跌倒恢复)分别训练策略,部署时依赖显式模式切换逻辑,增加复杂性和失败风险 - **对抗性运动先验(Adversarial Motion Priors, AMP)** 虽然能生成自然运动,但使用单一全局参考分布无法覆盖多样化的运动状态,尤其在面对跌倒后的大姿态偏离时表现不佳 - 研究背景:要求单一策略在硬件上无缝执行行走、跑步和跌倒恢复,且无需运行时模式逻辑,对**鲁棒性(robustness)** 和**通用性(generality)** 提出挑战
🔧 核心方法
- 提出**状态依赖对抗性运动先验(State-Dependent Adversarial Motion Priors)** 框架,扩展AMP,用**状态依赖门(state-dependent gate)** 将训练中的每个转移路由至两个判别器之一 - 门基于**投影重力(projected gravity)** 的固定阈值:当身体倾斜超过约37°(即|g_z+1|>0.6)时激活**恢复判别器(recovery discriminator)**;否则激活**速度条件运动判别器(velocity-conditioned locomotion discriminator)**,以归一化命令速度为条件选择行走或跑步参考轨迹 - 仅使用3个**LAFAN1参考片段(reference clips)** (分别对应行走、跑步、恢复)即可正则化完整行为集;部署时单个冻结ONNX策略以50Hz运行,无显式模式切换逻辑
💡 核心创新
- **状态依赖判别器门控**:首次将AMP中的单一全局判别器替换为基于重力投影的二元门控,实现对大姿态偏离(跌倒)与常规步态的自动区分,无需人工干预 - **极简参考数据**:仅用3个LAFAN1参考片段覆盖行走、跑步、恢复三种行为,大幅降低对**运动捕捉数据(motion capture data)** 的需求 - **零运行时模式切换**:在部署时策略完全自主根据状态选择行为,硬件实验中成功演示从俯卧和仰卧跌倒恢复以及行走-跑步平滑过渡,证明了框架的**统一性(unification)** 和**实际可用性(practical usability)**
🏆 总体贡献
- 为**人形机器人全向运动控制(holistic locomotion control)** 提供了一种统一且简单的**强化学习(reinforcement learning)** 范式,无需显式模式切换指令 - 在Unitree G1实物硬件上验证了单一策略同时处理行走、跑步和跌倒恢复的能力,填补了现有工作缺乏统一跌倒恢复和步态切换的空白 - 推动了**对抗性运动先验(AMP)** 的实用化扩展,通过状态依赖门控使判别器架构适应复杂、非平稳的运动场景,为后续研究提供了可复现的基线方法