四足机器人跑酷学习：基于视觉输入的稀疏门控专家混合模型

📝 论文摘要

机器人跑酷为推进在极具挑战性地形上的移动能力提供了一个引人注目的基准，这些地形包括如高台阶等大型不连续障碍。近期方法已展现出包括动态攀爬和跳跃在内的卓越能力，但通常依赖于采用密集激活层的顺序多层感知机（MLP）架构。相比之下，稀疏门控专家混合（MoE）架构已在大型语言模型领域崭露头角，它通过在推理时仅激活部分参数，成为提升可扩展性和性能的有效范式。本研究探讨了将稀疏门控MoE架构应用于基于视觉的机器人跑酷任务。我们在推理时激活参数数量受控匹配的条件下，对比了基于标准MLP与MoE架构的控制策略。在真实Unitree Go2四足机器人上的实验结果表明，MoE策略在穿越大型障碍物时成功尝试次数达到标准MLP基准的两倍，展现出明显的性能提升。我们进一步证明，若要使标准MLP达到可比性能，需将其参数量扩展至与MoE模型总参数量相当，这将导致计算时间增加14.3%。这些结果凸显了稀疏门控MoE架构在性能与计算效率之间提供了更优的平衡，从而能够提升基于视觉的机器人跑酷控制策略的可扩展性。代码库匿名链接为https://osf.io/v2kqj/files/github?view_only=7977dee10c0a44769184498eaba72e44。

🎯 研究动机

该论文旨在解决四足机器人在视觉输入下进行高难度跑酷（如跨越大型台阶）时，控制策略的扩展性与计算效率问题。研究背景是：现有方法通常使用顺序多层感知机(sequential multilayer perceptron, MLP)架构，其所有层在推理时均被激活，导致计算成本高；而稀疏门控专家混合(sparsely gated mixture-of-experts, MoE)架构在大型语言模型(large language model)领域已证明能通过仅激活部分参数来提升可扩展性和性能，但其在机器人视觉跑酷任务中的应用尚未被充分探索。

🔧 核心方法

论文将稀疏门控专家混合(sparsely gated mixture-of-experts, MoE)架构应用于基于视觉的四足机器人跑酷控制策略学习。具体方法包括： - 设计基于MoE的控制策略，在推理时仅激活一个参数子集。 - 在严格控制条件下，将MoE架构与标准多层感知机(multilayer perceptron, MLP)架构进行对比，确保两者在推理时的激活参数数量匹配。 - 在真实的Unitree Go2四足机器人上进行实验，评估策略在跨越大型障碍物时的成功率。

💡 核心创新

论文的核心创新点在于： - **首次将稀疏门控专家混合(MoE)架构引入视觉驱动的机器人跑酷控制领域**，探索了该架构在强化学习(reinforcement learning)和机器人控制中的新应用场景。 - **在性能与计算效率之间实现了更优的权衡**：与标准MLP相比，MoE策略在激活参数数量相同的情况下，成功穿越大型障碍的试验次数翻倍；而若要使标准MLP达到同等性能，则需将其总参数量增至与MoE模型相当，但这会导致计算时间增加14.3%。 - **验证了MoE架构在提升控制策略可扩展性方面的有效性**，为处理更复杂、高动态的机器人运动任务提供了一种高效的模型扩展范式。

🏆 总体贡献

论文对该领域的整体贡献包括： - 实证证明了稀疏门控专家混合(MoE)架构在基于视觉的四足机器人跑酷任务中，相比传统密集激活的MLP架构，能显著提升性能且保持计算效率。 - 为机器人运动控制策略的设计提供了一种新的、可扩展的架构选择，有助于推动在更具挑战性的地形上进行高效、动态的运动。 - 通过公开代码库，促进了相关研究的复现与进一步探索。

四足机器人跑酷学习：基于视觉输入的稀疏门控专家混合模型
Quadruped Parkour Learning: Sparsely Gated Mixture of Experts with Visual Input

📊 核心分析

四足机器人跑酷学习：基于视觉输入的稀疏门控专家混合模型 Quadruped Parkour Learning: Sparsely Gated Mixture of Experts with Visual Input

📊 核心分析

四足机器人跑酷学习：基于视觉输入的稀疏门控专家混合模型
Quadruped Parkour Learning: Sparsely Gated Mixture of Experts with Visual Input