- 解决**人形机器人多地形运动与步态自适应** 中,将**步态转换(walking-running transition)** 和**多地形适应(multi-terrain adaptation)** 统一到一个策略中的困难
- 现有方法受限于**梯度干扰(gradient interference)** 和**地形相关视觉与动态变化** 导致的**分布偏移(distribution shift)**
- 尽管**混合专家(Mixture-of-Experts, MoE)** 架构可缓解多技能干扰,但**朴素联合训练(naive joint training)** 难以实现清晰的**专家专业化(expert specialization)**
- 提出**CoRe-MoE**,一个**两阶段强化学习(two-stage reinforcement learning)** 框架
- 第一阶段:学习一个**稳定运动策略(stable locomotion policy)**,产生自然的**行走(walking)和奔跑(running)行为** 并实现平滑过渡
- 第二阶段:引入**地形感知MoE分支(terrain-aware MoE branch)**,通过**对比学习目标(contrastive objective)** 训练**门控网络(gating network)**,以捕获结构化地形表征并促进专家专业化
- 最终动作通过**加权融合(weighted fusion)** 基础步态策略和地形感知分支得到,保留稳定运动模式同时适应复杂地形
- **两阶段解耦设计**:将**步态生成(gait generation)** 和**地形适应(terrain adaptation)** 解耦,避免联合训练的梯度干扰
- **对比重加权(Contrastive Reweighting)**:利用对比目标塑造门控网络,使专家能够**结构化地形表征(structured terrain representations)** 并实现**专家专业化(expert specialization)**
- **加权融合机制**:基础步态策略与地形感知分支的融合,既保持稳定步态又动态适应地形,实现**零样本迁移(zero-shot deployment)** 到真实机器人
- 为**人形机器人多地形运动** 提供了一种新颖的**两阶段MoE框架(CoRe-MoE)**,统一了步态转换和地形适应
- 在仿真中超越基线方法,在**成功率(success rate)**、**运动稳定性(locomotion stability)** 和**多地形适应性(multi-terrain adaptability)** 上均表现优异
- 在**Unitree G1人形机器人** 上实现了**零样本部署(zero-shot deployment)**,验证了在楼梯、斜坡、台阶、障碍物和非结构化户外地形上的鲁棒行走与奔跑,以及对外部扰动下的动态稳定性