该论文旨在解决人形机器人(locomotion-manipulation)在现实世界中面临的挑战,这些挑战包括:需要全身稳定性、灵巧的手部操作以及在频繁接触变化下的接触感知(contact-aware)能力。研究背景是当前人形机器人在执行灵巧、接触丰富的操作任务时,难以同时保证稳定性和对接触的感知与适应。
论文采用了一种分阶段的方法:
- 首先,开发了一个基于强化学习(reinforcement learning)的全身控制器(whole-body controller),用于在复杂操作中提供稳定的下半身和躯干执行。
- 其次,构建了一个全身人形机器人数据收集系统,结合了基于虚拟现实(VR)的遥操作(teleoperation)和从人到人形机器人的运动映射(motion mapping),以高效收集真实世界的演示数据。
- 核心算法是提出了带触觉梦想(Touch Dreaming)的人形机器人变换器(Humanoid Transformer with Touch Dreaming, HTD),这是一个多模态编码器-解码器变换器(multimodal encoder-decoder Transformer)。它将触觉(touch)作为核心模态,与多视角视觉(multi-view vision)和本体感觉(proprioception)一同建模。
- 训练采用单阶段行为克隆(behavioral cloning),并通过“触觉梦想”进行增强:除了预测动作块(action chunks),策略还预测未来的手部关节力(hand-joint forces)和未来的触觉潜在表示(tactile latents),从而鼓励共享的变换器主干学习接触感知的表征。
论文的核心创新点在于:
- **提出了“触觉梦想”(Touch Dreaming)训练范式**:在标准的行为克隆目标之外,增加了对未来触觉信号(包括原始关节力和潜在表示)的预测任务。这迫使模型学习对接触动态的预测性理解,从而获得更鲁棒、更具泛化能力的接触感知表征。
- **将触觉(touch)提升为核心模态进行建模**:在HTD模型中,触觉不再是辅助信号,而是与视觉、本体感觉并列的核心输入和预测目标,这突出了触觉在灵巧操作中的关键作用。
- **证明了潜在空间触觉预测的优越性**:通过消融实验发现,预测触觉的潜在表示(tactile latents)比预测原始触觉信号(raw tactile)更有效,能带来30%的相对成功率提升。这表明学习压缩的、有意义的触觉表征对于任务成功至关重要。
- **整合了从底层控制到高层学习的完整系统**:创新性地将稳健的全身底层控制器、可扩展的人形数据收集系统与以预测性触觉学习为中心的高层策略学习相结合,形成了一个实现现实世界高性能人形操作的完整框架。
论文对该领域的整体贡献包括:
- **方法论贡献**:提出了HTD模型和“触觉梦想”训练方法,为学习接触丰富的人形操作任务提供了一种新的、有效的多模态表征学习范式。
- **实证贡献**:在五个接触丰富的真实世界任务(Insert-T、图书整理、毛巾折叠、猫砂铲取、端茶服务)上进行了系统评估,HTD相比更强的基线实现了平均成功率90.9%的相对提升,有力验证了方法的有效性。
- **系统贡献**:展示并开源了一个完整的系统,包括稳健的全身控制器、高效的数据收集流程以及先进的触觉增强学习算法,为后续人形机器人灵巧操作研究提供了可复现的基准和工具。
- **见解贡献**:通过消融研究明确了潜在空间触觉预测相对于原始信号预测的优势,为未来机器人触觉学习的方向提供了重要见解。