← 返回论文列表

HANDOFF: 通过蒸馏互补教师的人形智能体任务空间全身控制
HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

作者: Lizhi Yang, Junheng Li, Nehar Poddar 等8人
arXiv: 2606.06493v1
分类: cs.RO, cs.AI, cs.LG
📝 论文摘要
在将人形机器人部署到现实世界时,指令空间(即任务规划与全身控制之间的接口)的选择至关重要。现有全身控制器通常需要规划器难以从任务语义中综合生成的密集运动学或空间参考。为此,我们提出一种紧凑、显式的接口,该接口直观、通用、模块化且具有足够的表现力以支持多种操作技能。基于此,我们引入HANDOFF——一种遵循该接口的单一全身控制器,并通过多教师KL散度蒸馏,在上下文条件门控机制下,从三个互补专业模型(基于安全滤波数据的全身运动跟踪、行走、摔倒恢复)中蒸馏出混合专家学生模型。在Unitree G1机器人上,HANDOFF实现了与最先进方法相当的速率跟踪性能,并提供了最大的鲁棒操作工作空间之一。我们进一步通过多个自然语言驱动的任务执行演示了硬件可行性,这些任务由VLM驱动的智能体规划器(无需特定任务数据或控制器微调)提供支持。

📊 核心分析

🎯 研究动机
- 现有人形机器人全身控制器通常需要**密集的运动学或空间参考(dense kinematic/spatial references)**,而规划器难以从任务语义中合成这些参考 - 现有接口不够紧凑、直观和通用,限制了从高层任务规划到低层控制的衔接效率 - 研究背景:人形机器人在真实世界部署需要一种简洁、模块化且表达能力强的命令空间(command space)接口
🔧 核心方法
- 提出**HANDOFF** 框架:一个单一的人形全身控制器,通过**多教师KL蒸馏(multi-teacher KL distillation)** 将三个互补专家教师整合为**混合专家学生(mixture-of-experts student)** - 三个专家教师分别为:**全身运动跟踪(whole-body motion tracking)** (使用安全过滤数据)、**行走(locomotion)**、**跌倒恢复(fall-recovery)** - 采用**上下文条件门控机制(context-conditioned gating scheme)** 动态选择专家输出,学生模型学习融合不同技能 - 定义紧凑显式的**任务空间接口(task-space interface)**,作为任务规划与全身控制之间的媒介
💡 核心创新
- **首创紧凑显式接口**:提出一种直观、通用、模块化且表达力强的命令空间,无需密集参考即可连接任务语义与全身控制 - **多教师蒸馏策略**:首次将全身运动跟踪、行走和跌倒恢复三个互补专家通过KL散度蒸馏至单一学生模型,实现技能融合 - **无需任务特定数据或微调**:结合**VLM驱动的智能体规划器(VLM-driven agentic planner)**,直接通过自然语言驱动任务执行,展示了强大的泛化能力
🏆 总体贡献
- 为**人形机器人全身控制(humanoid whole-body control)** 提供了一种新颖的**任务空间接口范式(task-space interface paradigm)**,使任务规划更高效 - 在Unitree G1平台上,HANDOFF匹配最先进的速率跟踪性能,并实现最大的鲁棒操作工作空间之一 - 通过硬件实验验证了自然语言驱动任务滚动的可行性,展示了零样本迁移能力,为通用人形操作奠定了基础