该论文旨在解决四足机器人在视觉输入下进行高难度跑酷(如跨越大型台阶)时,控制策略的扩展性与计算效率问题。研究背景是:现有方法通常使用顺序多层感知机(sequential multilayer perceptron, MLP)架构,其所有层在推理时均被激活,导致计算成本高;而稀疏门控专家混合(sparsely gated mixture-of-experts, MoE)架构在大型语言模型(large language model)领域已证明能通过仅激活部分参数来提升可扩展性和性能,但其在机器人视觉跑酷任务中的应用尚未被充分探索。
论文将稀疏门控专家混合(sparsely gated mixture-of-experts, MoE)架构应用于基于视觉的四足机器人跑酷控制策略学习。具体方法包括:
- 设计基于MoE的控制策略,在推理时仅激活一个参数子集。
- 在严格控制条件下,将MoE架构与标准多层感知机(multilayer perceptron, MLP)架构进行对比,确保两者在推理时的激活参数数量匹配。
- 在真实的Unitree Go2四足机器人上进行实验,评估策略在跨越大型障碍物时的成功率。
论文的核心创新点在于:
- **首次将稀疏门控专家混合(MoE)架构引入视觉驱动的机器人跑酷控制领域**,探索了该架构在强化学习(reinforcement learning)和机器人控制中的新应用场景。
- **在性能与计算效率之间实现了更优的权衡**:与标准MLP相比,MoE策略在激活参数数量相同的情况下,成功穿越大型障碍的试验次数翻倍;而若要使标准MLP达到同等性能,则需将其总参数量增至与MoE模型相当,但这会导致计算时间增加14.3%。
- **验证了MoE架构在提升控制策略可扩展性方面的有效性**,为处理更复杂、高动态的机器人运动任务提供了一种高效的模型扩展范式。
论文对该领域的整体贡献包括:
- 实证证明了稀疏门控专家混合(MoE)架构在基于视觉的四足机器人跑酷任务中,相比传统密集激活的MLP架构,能显著提升性能且保持计算效率。
- 为机器人运动控制策略的设计提供了一种新的、可扩展的架构选择,有助于推动在更具挑战性的地形上进行高效、动态的运动。
- 通过公开代码库,促进了相关研究的复现与进一步探索。