随着人形机器人(humanoid robot)的强化学习(reinforcement learning)从单任务向多技能范式演进,如何高效扩展新技能同时避免灾难性遗忘(catastrophic forgetting)已成为具身智能(embodied intelligence)的关键挑战。现有方法要么依赖混合专家(Mixture-of-Experts, MoE)模型的复杂拓扑调整,要么需要训练极大规模模型,难以实现轻量级部署。
论文提出了一个名为“树学习(Tree Learning)”的多技能持续学习(continual learning)框架。其核心方法包括:
- 采用根-分支(root-branch)分层参数继承机制,通过参数重用为分支技能提供运动先验(motion prior)。
- 设计了一种结合相位调制(phase modulation)和插值(interpolation)的多模态前馈适应(multi-modal feedforward adaptation)机制,以同时支持周期性(periodic)和非周期性(aperiodic)运动。
- 提出了一种任务级奖励塑形(task-level reward shaping)策略以加速技能收敛。
- 在Unity仿真环境中进行实验验证。
与现有工作相比,本论文的核心创新点在于:
- **提出了“树学习”框架及其根-分支参数继承机制**:该机制通过参数重用提供运动先验,从根源上防止了灾难性遗忘,避免了传统MoE方法的复杂拓扑调整或大规模模型训练需求。
- **设计了统一的多模态前馈适应机制**:该机制创新性地结合了相位调制和插值,能够在一个框架内同时高效处理周期性(如行走)和非周期性(如交互)运动,增强了框架的通用性。
- **实现了轻量、高效且可保留的技能扩展**:框架在保证100%技能保留率的同时,实现了比同步多任务训练更高的奖励回报,并支持无缝的多技能切换和实时交互控制,更利于实际机器人部署。
论文对该领域的整体贡献是:
- 提出了一种新颖、轻量且高效的人形机器人多技能持续学习框架(Tree Learning),为解决灾难性遗忘和技能可扩展性难题提供了新思路。
- 通过根-分支继承、多模态适应和奖励塑形等关键技术,在仿真实验中验证了框架在技能学习效率、保留率和通用性上的优势。
- 在两类不同的Unity仿真任务(受《超级马里奥》启发的交互场景和古典中式园林的自主导航)中进一步验证了框架的性能和泛化能力,展示了其在复杂、多样化现实场景中的应用潜力。