现有机器人后训练(post-training)依赖物理环境中的真实交互,每次修正都需要机器人时间、场景设置、重置和操作员监督,成本高且难以扩展。同时,动作条件世界模型(action-conditioned world model)主要用于想象、合成数据生成和策略评估,未被用作可复用的修正基板。
提出人类-世界模型(Human-in-the-World-Model, Hi-WM)框架,使用学习到的世界模型作为可复用的修正基板。策略在世界模型内闭环滚动(closed-loop rollout);当滚动出现错误或失败时,人类直接在世界模型中提供短时修正动作。Hi-WM缓存中间状态并支持回滚(rollback)和分支(branching),使单个失败状态可被多次复用生成多个修正延续,从而在基础策略表现不佳的行为周围产生密集监督信号。修正轨迹随后被加入训练集进行后训练。
核心创新在于将世界模型从生成器或评估器角色转变为可复用的修正基板(corrective substrate),允许人类在模型内部而非物理环境中进行干预,并通过状态缓存、回滚和分支机制高效复用失败状态,实现密集监督信号的生成,大幅降低后训练对物理交互的依赖。
在三个真实世界操作任务(涵盖刚体和可变形物体交互)及两个策略骨干上验证,Hi-WM相比基础策略平均提升37.9个百分点的真实世界成功率,相比世界模型闭环基线提升19.0个百分点,且世界模型评估与真实性能高度相关(r=0.953)。表明世界模型可作为可扩展机器人后训练的有效修正基板。