树形学习：人形机器人的多技能持续学习框架

📝 论文摘要

随着人形机器人强化学习从单任务向多技能范式演进，如何高效扩展新技能同时避免灾难性遗忘，已成为具身智能领域的关键挑战。现有方法或依赖混合专家模型的复杂拓扑调整，或需训练超大规模模型，难以实现轻量化部署。为此，我们提出面向人形机器人的多技能持续学习框架——树状学习。该框架采用根-枝分层参数继承机制，通过参数复用为分支技能提供运动先验，从根本上防止灾难性遗忘；设计融合相位调制与插值的多模态前馈适应机制，同时支持周期性与非周期性运动；提出任务级奖励塑形策略以加速技能收敛。基于Unity的仿真实验表明：相较于同步多任务训练，树状学习在多种代表性运动技能中均获得更高奖励，同时保持100%技能留存率，可实现多技能无缝切换与实时交互控制。我们进一步在两类差异化Unity仿真任务中验证了树状学习的性能与泛化能力：受《超级马里奥》启发的交互场景，以及经典中式园林环境中的自主导航任务。

🎯 研究动机

随着人形机器人(humanoid robot)的强化学习(reinforcement learning)从单任务向多技能范式演进，如何高效扩展新技能同时避免灾难性遗忘(catastrophic forgetting)已成为具身智能(embodied intelligence)的关键挑战。现有方法要么依赖混合专家(Mixture-of-Experts, MoE)模型的复杂拓扑调整，要么需要训练极大规模模型，难以实现轻量级部署。

🔧 核心方法

论文提出了一个名为“树学习(Tree Learning)”的多技能持续学习(continual learning)框架。其核心方法包括： - 采用根-分支(root-branch)分层参数继承机制，通过参数重用为分支技能提供运动先验(motion prior)。 - 设计了一种结合相位调制(phase modulation)和插值(interpolation)的多模态前馈适应(multi-modal feedforward adaptation)机制，以同时支持周期性(periodic)和非周期性(aperiodic)运动。 - 提出了一种任务级奖励塑形(task-level reward shaping)策略以加速技能收敛。 - 在Unity仿真环境中进行实验验证。

💡 核心创新

与现有工作相比，本论文的核心创新点在于： - **提出了“树学习”框架及其根-分支参数继承机制**：该机制通过参数重用提供运动先验，从根源上防止了灾难性遗忘，避免了传统MoE方法的复杂拓扑调整或大规模模型训练需求。 - **设计了统一的多模态前馈适应机制**：该机制创新性地结合了相位调制和插值，能够在一个框架内同时高效处理周期性（如行走）和非周期性（如交互）运动，增强了框架的通用性。 - **实现了轻量、高效且可保留的技能扩展**：框架在保证100%技能保留率的同时，实现了比同步多任务训练更高的奖励回报，并支持无缝的多技能切换和实时交互控制，更利于实际机器人部署。

🏆 总体贡献

论文对该领域的整体贡献是： - 提出了一种新颖、轻量且高效的人形机器人多技能持续学习框架（Tree Learning），为解决灾难性遗忘和技能可扩展性难题提供了新思路。 - 通过根-分支继承、多模态适应和奖励塑形等关键技术，在仿真实验中验证了框架在技能学习效率、保留率和通用性上的优势。 - 在两类不同的Unity仿真任务（受《超级马里奥》启发的交互场景和古典中式园林的自主导航）中进一步验证了框架的性能和泛化能力，展示了其在复杂、多样化现实场景中的应用潜力。

树形学习：人形机器人的多技能持续学习框架
Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots

📊 核心分析

树形学习：人形机器人的多技能持续学习框架 Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots

📊 核心分析

树形学习：人形机器人的多技能持续学习框架
Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots