该论文旨在解决机器人世界模型(robot world models)在自回归(autoregressive)多步推演(rollout)中不稳定的问题。研究背景是:基于动作条件(action-conditioned)的机器人世界模型能够根据机器人动作序列生成未来视频帧,为难以用传统物理引擎建模的任务提供了一种有前景的仿真替代方案。然而,现有模型主要针对短期预测优化,当以自回归方式部署时(即每个预测片段作为下一个预测的上下文),会导致误差累积和视觉质量迅速退化。
论文提出了一种强化学习(reinforcement learning, RL)后训练(post-training)方案,具体包括:
- 核心训练范式:训练世界模型时,使用其自身的自回归推演结果作为输入,而非真实历史数据(ground-truth histories)。
- RL目标函数:将最近为扩散模型(diffusion models)设计的对比强化学习(contrastive RL)目标适配到本任务中,并证明其收敛性保证(convergence guarantees)完全适用。
- 训练协议:从相同的推演状态(rollout state)生成并比较多个候选的变长未来序列,强化高保真度预测,抑制低保真度预测。
- 评估奖励:设计了高效的多视角(multi-view)视觉保真度奖励,结合了不同相机视角的互补感知指标(perceptual metrics),并在片段(clip)级别聚合,以提供密集、低方差的训练信号。
论文的核心创新点在于:
- 首次将强化学习(reinforcement learning)的后训练范式系统地应用于稳定机器人世界模型的多步自回归推演,从根本上改变了模型的训练数据分布(从真实历史转向模型自身的推演),直接针对其部署时的失效模式进行优化。
- 创新性地设计了一种基于对比的RL训练协议,通过在同一状态下生成并比较多个未来预测序列,实现了对预测质量的直接优化,而非仅仅模仿真实数据。
- 开发了跨视角、片段级别的复合视觉保真度奖励函数,为模型优化提供了高效且稳定的多粒度监督信号。
- 与现有工作(通常只优化单步或短期预测损失)相比,本方法独特地聚焦于提升模型在长时、闭环自回归推演中的持久性(persistence)和稳定性。
论文对该领域的总体贡献包括:
- 提出了一套完整的、基于强化学习的后训练框架,显著提升了机器人世界模型在长时、自回归推演中的稳定性和视觉保真度。
- 在DROID数据集上建立了新的技术标杆(state-of-the-art),在所有评估指标上均超越了最强基线(例如,外部相机的LPIPS降低了14%,腕部相机的SSIM提升了9.1%),在配对比较中赢得了98%的胜率,并在盲测人类研究中获得了80%的偏好率。
- 为基于模型的机器人学习(model-based robot learning)领域提供了一种新的思路,即通过强化学习直接优化生成模型在部署时的长期行为,而非仅仅其单步预测精度,这对于实现可靠的长期规划至关重要。