CoRe-MoE：基于对比重加权专家混合的多地形仿人机器人步态自适应运动

📝 论文摘要

人类主要依靠行走和跑步来穿越复杂地形，而无需采用不必要复杂的运动模式。同样，人形机器人应在保持自然稳定运动的同时，实现行走与跑步之间的平滑过渡。然而，由于梯度干扰以及地形依赖的视觉与动态变化引起的分布偏移，将步态转换与多地形适应统一到单一策略中仍具挑战性。尽管混合专家（MoE）架构能够缓解多技能干扰，但简化的联合训练往往难以产生清晰的专家分化，从而限制了其有效性。为应对这些挑战，我们提出CoRe-MoE——一种将步态生成与地形适应解耦的两阶段强化学习框架。第一阶段学习稳定运动策略，以产生具有平滑过渡的自然行走与跑步行为；第二阶段引入地形感知的混合专家分支，并通过对比学习目标训练门控网络，使其能够捕获结构化的地形表征并促进专家分化。最终动作通过基础步态策略与地形感知分支的加权融合得到，使策略在适应复杂地形的同时保留稳定运动模式。大量仿真结果表明，所提方法在成功率、运动稳定性及多地形适应性方面优于基线方法。此外，在宇树G1人形机器人上的零样本部署验证了该框架的有效性，实现了跨楼梯、斜坡、台阶、障碍物及非结构化户外地形的稳健行走与跑步，并在外部扰动下保持精确落脚点与动态稳定性。

🎯 研究动机

- 人类步行和跑步即可遍历复杂地形，人形机器人应实现行走与奔跑的平滑过渡，保持自然稳定运动 - 现有方法将步态转换与多地形适应统一到单个策略中面临**梯度干扰(gradient interference)** 和地形依赖的视觉与动态变化导致的**分布偏移(distribution shift)** - **混合专家模型(Mixture-of-Experts, MoE)** 可缓解多技能干扰，但朴素联合训练难以产生清晰的**专家特化(expert specialization)**，限制了有效性

🔧 核心方法

- 提出两阶段**强化学习(reinforcement learning)** 框架**CoRe-MoE**：第一阶段学习稳定运动策略，产生自然的行走和奔跑行为及平滑过渡 - 第二阶段引入地形感知**MoE分支**，使用**对比目标(contrastive objective)** 训练**门控网络(gating network)**，使其捕获结构化地形表示并促进专家特化 - 最终动作通过**基础步态策略(base gait policy)** 与**地形感知分支(terrain-aware branch)** 的**加权融合(weighted fusion)** 得到，在保持稳定步态模式的同时适应复杂地形

💡 核心创新

- **两阶段解耦**：将步态生成与地形适应解耦，先学习基础运动策略再注入地形感知能力，避免联合训练中的干扰 - **对比重加权(Contrastive Reweighting)**：利用对比目标塑造MoE门控网络，增强专家特化，使不同专家专注于不同地形特征 - **加权融合机制**：通过基础策略与地形分支的加权融合，保留稳定步态模式的同时实现地形适应，无需重新设计复杂网络

🏆 总体贡献

- 提出**CoRe-MoE** 框架，有效解决了人形机器人多地形步态适应中的梯度干扰和专家特化问题 - 在仿真环境中，该方法在**成功率**、**运动稳定性** 和**多地形适应性** 上优于基线方法 - 在真实**Unitree G1** 人形机器人上零样本部署成功，实现了在楼梯、斜坡、台阶、障碍物和非结构化户外地形上的稳健行走与奔跑，并具备抗外扰的**动态稳定性**

CoRe-MoE：基于对比重加权专家混合的多地形仿人机器人步态自适应运动
CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation

📊 核心分析

CoRe-MoE：基于对比重加权专家混合的多地形仿人机器人步态自适应运动 CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation

📊 核心分析

CoRe-MoE：基于对比重加权专家混合的多地形仿人机器人步态自适应运动
CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation