- 人类步行和跑步即可遍历复杂地形,人形机器人应实现行走与奔跑的平滑过渡,保持自然稳定运动
- 现有方法将步态转换与多地形适应统一到单个策略中面临**梯度干扰(gradient interference)** 和地形依赖的视觉与动态变化导致的**分布偏移(distribution shift)**
- **混合专家模型(Mixture-of-Experts, MoE)** 可缓解多技能干扰,但朴素联合训练难以产生清晰的**专家特化(expert specialization)**,限制了有效性
- 提出两阶段**强化学习(reinforcement learning)** 框架**CoRe-MoE**:第一阶段学习稳定运动策略,产生自然的行走和奔跑行为及平滑过渡
- 第二阶段引入地形感知**MoE分支**,使用**对比目标(contrastive objective)** 训练**门控网络(gating network)**,使其捕获结构化地形表示并促进专家特化
- 最终动作通过**基础步态策略(base gait policy)** 与**地形感知分支(terrain-aware branch)** 的**加权融合(weighted fusion)** 得到,在保持稳定步态模式的同时适应复杂地形
- **两阶段解耦**:将步态生成与地形适应解耦,先学习基础运动策略再注入地形感知能力,避免联合训练中的干扰
- **对比重加权(Contrastive Reweighting)**:利用对比目标塑造MoE门控网络,增强专家特化,使不同专家专注于不同地形特征
- **加权融合机制**:通过基础策略与地形分支的加权融合,保留稳定步态模式的同时实现地形适应,无需重新设计复杂网络
- 提出**CoRe-MoE** 框架,有效解决了人形机器人多地形步态适应中的梯度干扰和专家特化问题
- 在仿真环境中,该方法在**成功率**、**运动稳定性** 和**多地形适应性** 上优于基线方法
- 在真实**Unitree G1** 人形机器人上零样本部署成功,实现了在楼梯、斜坡、台阶、障碍物和非结构化户外地形上的稳健行走与奔跑,并具备抗外扰的**动态稳定性**