Hi-WM：面向可扩展机器人后训练的人机世界模型

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

作者: Yaxuan Li, Zhongyi Zhou, Yefei Chen 等8人

arXiv: 2604.21741v1

分类: cs.RO

📝 论文摘要

后训练是将预训练的通用机器人策略转化为可靠任务专用控制器的关键环节，但现有的人机协同流程仍受限于物理执行：每次修正都需要机器人运行时间、场景搭建、重置操作以及操作员在真实环境中的监督。与此同时，动作条件世界模型的研究主要集中于想象生成、合成数据生成和策略评估。我们提出**人在世界模型（Human-in-the-World-Model, Hi-WM）**框架，该后训练方法将学习到的世界模型作为可复用的修正基板，用于针对失败点的策略改进。具体而言，策略首先在世界模型内部进行闭环推演；当推演结果出现错误或易失败时，操作员直接在世界模型中提供短时修正动作。Hi-WM通过缓存中间状态并支持回滚与分支操作，使得单个失败状态可被重复用于多次修正延续，从而在基础策略处理不佳的行为附近生成密集监督信号。最终将生成的修正轨迹重新加入训练集进行后训练。我们在三个涉及刚体与可变形物体交互的真实世界操作任务及两种策略主干上评估Hi-WM。实验表明，Hi-WM使真实世界成功率较基础策略平均提升37.9个百分点，较世界模型闭环基线提升19.0个百分点，且世界模型评估与真实世界性能呈强相关性（r=0.953）。这些结果表明，世界模型不仅能作为生成器或评估器，更能成为可扩展机器人后训练的有效修正基板。

📊 核心分析

🎯 研究动机

现有机器人后训练(post-training)依赖物理环境中的真实交互，每次修正都需要机器人时间、场景设置、重置和操作员监督，成本高且难以扩展。同时，动作条件世界模型(action-conditioned world model)主要用于想象、合成数据生成和策略评估，未被用作可复用的修正基板。

🔧 核心方法

提出人类-世界模型(Human-in-the-World-Model, Hi-WM)框架，使用学习到的世界模型作为可复用的修正基板。策略在世界模型内闭环滚动(closed-loop rollout)；当滚动出现错误或失败时，人类直接在世界模型中提供短时修正动作。Hi-WM缓存中间状态并支持回滚(rollback)和分支(branching)，使单个失败状态可被多次复用生成多个修正延续，从而在基础策略表现不佳的行为周围产生密集监督信号。修正轨迹随后被加入训练集进行后训练。

💡 核心创新

核心创新在于将世界模型从生成器或评估器角色转变为可复用的修正基板(corrective substrate)，允许人类在模型内部而非物理环境中进行干预，并通过状态缓存、回滚和分支机制高效复用失败状态，实现密集监督信号的生成，大幅降低后训练对物理交互的依赖。

🏆 总体贡献

在三个真实世界操作任务（涵盖刚体和可变形物体交互）及两个策略骨干上验证，Hi-WM相比基础策略平均提升37.9个百分点的真实世界成功率，相比世界模型闭环基线提升19.0个百分点，且世界模型评估与真实性能高度相关(r=0.953)。表明世界模型可作为可扩展机器人后训练的有效修正基板。