← 返回论文列表

持久机器人世界模型:通过强化学习稳定多步推演
Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

作者: Jai Bardhan, Patrik Drozdik, Josef Sivic 等4人
arXiv: 2603.25685v1
分类: cs.RO, cs.CV
📝 论文摘要
动作条件化机器人世界模型能够根据机器人动作序列生成被操控场景的未来视频帧,为模拟传统物理引擎难以建模的任务提供了有前景的替代方案。然而,这些模型主要针对短期预测进行优化,在自回归部署时会出现问题:每个预测片段会作为下一个片段的上下文反馈,导致误差累积和视觉质量迅速下降。我们通过以下贡献解决这一问题。首先,我们引入一种强化学习后训练方案,该方案基于模型自身的自回归推演而非真实历史数据来训练世界模型。我们通过将近期提出的扩散模型对比强化学习目标适配到我们的场景中实现这一方案,并证明其收敛性保证完全适用。其次,我们设计了一种训练协议,能够从相同推演状态生成并比较多个候选变长未来序列,从而强化高保真预测而非低保真预测。第三,我们开发了高效的多视角视觉保真度奖励机制,该机制结合了不同相机视角的互补感知指标,并在片段级别进行聚合,以提供密集且低方差的训练信号。第四,我们证明该方法在DROID数据集上实现了推演保真度的新最优水平,在所有指标上均超越最强基线(例如外部相机的LPIPS降低14%,腕部相机的SSIM提升9.1%),在配对比较中赢得98%的胜率,并在盲测人类研究中获得80%的偏好率。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人世界模型(robot world models)在自回归(autoregressive)多步推演(rollout)中不稳定的问题。研究背景是:基于动作条件(action-conditioned)的机器人世界模型能够根据机器人动作序列生成未来视频帧,为难以用传统物理引擎建模的任务提供了一种有前景的仿真替代方案。然而,现有模型主要针对短期预测优化,当以自回归方式部署时(即每个预测片段作为下一个预测的上下文),会导致误差累积和视觉质量迅速退化。
🔧 核心方法
论文提出了一种强化学习(reinforcement learning, RL)后训练(post-training)方案,具体包括: - 核心训练范式:训练世界模型时,使用其自身的自回归推演结果作为输入,而非真实历史数据(ground-truth histories)。 - RL目标函数:将最近为扩散模型(diffusion models)设计的对比强化学习(contrastive RL)目标适配到本任务中,并证明其收敛性保证(convergence guarantees)完全适用。 - 训练协议:从相同的推演状态(rollout state)生成并比较多个候选的变长未来序列,强化高保真度预测,抑制低保真度预测。 - 评估奖励:设计了高效的多视角(multi-view)视觉保真度奖励,结合了不同相机视角的互补感知指标(perceptual metrics),并在片段(clip)级别聚合,以提供密集、低方差的训练信号。
💡 核心创新
论文的核心创新点在于: - 首次将强化学习(reinforcement learning)的后训练范式系统地应用于稳定机器人世界模型的多步自回归推演,从根本上改变了模型的训练数据分布(从真实历史转向模型自身的推演),直接针对其部署时的失效模式进行优化。 - 创新性地设计了一种基于对比的RL训练协议,通过在同一状态下生成并比较多个未来预测序列,实现了对预测质量的直接优化,而非仅仅模仿真实数据。 - 开发了跨视角、片段级别的复合视觉保真度奖励函数,为模型优化提供了高效且稳定的多粒度监督信号。 - 与现有工作(通常只优化单步或短期预测损失)相比,本方法独特地聚焦于提升模型在长时、闭环自回归推演中的持久性(persistence)和稳定性。
🏆 总体贡献
论文对该领域的总体贡献包括: - 提出了一套完整的、基于强化学习的后训练框架,显著提升了机器人世界模型在长时、自回归推演中的稳定性和视觉保真度。 - 在DROID数据集上建立了新的技术标杆(state-of-the-art),在所有评估指标上均超越了最强基线(例如,外部相机的LPIPS降低了14%,腕部相机的SSIM提升了9.1%),在配对比较中赢得了98%的胜率,并在盲测人类研究中获得了80%的偏好率。 - 为基于模型的机器人学习(model-based robot learning)领域提供了一种新的思路,即通过强化学习直接优化生成模型在部署时的长期行为,而非仅仅其单步预测精度,这对于实现可靠的长期规划至关重要。