触觉梦境：学习多功能人形机器人操控

📝 论文摘要

人形机器人有望提供通用辅助，然而现实世界中的人形移动操作仍面临挑战，因为它需要在频繁接触变化下保持全身稳定性、具备灵巧手部以及接触感知能力。本研究聚焦于灵巧且接触密集的人形移动操作。我们首先开发了一种基于强化学习的全身控制器，确保在复杂操作过程中下肢与躯干的稳定执行。基于该控制器，我们构建了结合VR遥操作与人体-人形运动映射的全身人形数据采集系统，实现了现实世界演示数据的高效收集。随后，我们提出了具备触觉梦境预测的人形变换器模型——一种多模态编码器-解码器变换器，将触觉作为与多视角视觉、本体感知并列的核心模态进行建模。该模型通过行为克隆与触觉梦境增强进行单阶段训练：除了预测动作序列外，策略还预测未来手部关节力与未来触觉潜在表征，促使共享变换器主干学习面向灵巧交互的接触感知表征。在插入T形件、图书整理、毛巾折叠、猫砂铲取和奉茶这五项接触密集型任务中，该模型相较于更强基线实现了90.9%的平均成功率相对提升。消融实验进一步表明，潜在空间触觉预测比原始触觉预测更有效，可带来30%的相对成功率增益。这些结果证明，结合稳健的全身执行系统、可扩展的人形数据采集以及以触觉为核心的预测性学习，能够实现现实世界中多功能、高灵巧度的人形操作。项目网页：humanoid-touch-dream.github.io。

🎯 研究动机

该论文旨在解决人形机器人(locomotion-manipulation)在现实世界中面临的挑战，这些挑战包括：需要全身稳定性、灵巧的手部操作以及在频繁接触变化下的接触感知(contact-aware)能力。研究背景是当前人形机器人在执行灵巧、接触丰富的操作任务时，难以同时保证稳定性和对接触的感知与适应。

🔧 核心方法

论文采用了一种分阶段的方法： - 首先，开发了一个基于强化学习(reinforcement learning)的全身控制器(whole-body controller)，用于在复杂操作中提供稳定的下半身和躯干执行。 - 其次，构建了一个全身人形机器人数据收集系统，结合了基于虚拟现实(VR)的遥操作(teleoperation)和从人到人形机器人的运动映射(motion mapping)，以高效收集真实世界的演示数据。 - 核心算法是提出了带触觉梦想(Touch Dreaming)的人形机器人变换器(Humanoid Transformer with Touch Dreaming, HTD)，这是一个多模态编码器-解码器变换器(multimodal encoder-decoder Transformer)。它将触觉(touch)作为核心模态，与多视角视觉(multi-view vision)和本体感觉(proprioception)一同建模。 - 训练采用单阶段行为克隆(behavioral cloning)，并通过“触觉梦想”进行增强：除了预测动作块(action chunks)，策略还预测未来的手部关节力(hand-joint forces)和未来的触觉潜在表示(tactile latents)，从而鼓励共享的变换器主干学习接触感知的表征。

💡 核心创新

论文的核心创新点在于： - **提出了“触觉梦想”(Touch Dreaming)训练范式**：在标准的行为克隆目标之外，增加了对未来触觉信号（包括原始关节力和潜在表示）的预测任务。这迫使模型学习对接触动态的预测性理解，从而获得更鲁棒、更具泛化能力的接触感知表征。 - **将触觉(touch)提升为核心模态进行建模**：在HTD模型中，触觉不再是辅助信号，而是与视觉、本体感觉并列的核心输入和预测目标，这突出了触觉在灵巧操作中的关键作用。 - **证明了潜在空间触觉预测的优越性**：通过消融实验发现，预测触觉的潜在表示(tactile latents)比预测原始触觉信号(raw tactile)更有效，能带来30%的相对成功率提升。这表明学习压缩的、有意义的触觉表征对于任务成功至关重要。 - **整合了从底层控制到高层学习的完整系统**：创新性地将稳健的全身底层控制器、可扩展的人形数据收集系统与以预测性触觉学习为中心的高层策略学习相结合，形成了一个实现现实世界高性能人形操作的完整框架。

🏆 总体贡献

论文对该领域的整体贡献包括： - **方法论贡献**：提出了HTD模型和“触觉梦想”训练方法，为学习接触丰富的人形操作任务提供了一种新的、有效的多模态表征学习范式。 - **实证贡献**：在五个接触丰富的真实世界任务（Insert-T、图书整理、毛巾折叠、猫砂铲取、端茶服务）上进行了系统评估，HTD相比更强的基线实现了平均成功率90.9%的相对提升，有力验证了方法的有效性。 - **系统贡献**：展示并开源了一个完整的系统，包括稳健的全身控制器、高效的数据收集流程以及先进的触觉增强学习算法，为后续人形机器人灵巧操作研究提供了可复现的基准和工具。 - **见解贡献**：通过消融研究明确了潜在空间触觉预测相对于原始信号预测的优势，为未来机器人触觉学习的方向提供了重要见解。

触觉梦境：学习多功能人形机器人操控
Learning Versatile Humanoid Manipulation with Touch Dreaming

📊 核心分析

触觉梦境：学习多功能人形机器人操控 Learning Versatile Humanoid Manipulation with Touch Dreaming

📊 核心分析

触觉梦境：学习多功能人形机器人操控
Learning Versatile Humanoid Manipulation with Touch Dreaming