- 现有机器人视频世界模型使用低级目标(如重建和感知相似性)训练,与机器人决策所需的关键能力(**指令跟随**、**操作成功**、**物理合理性**)对齐性差
- **自回归预测** 在长时间跨度下存在**误差累积** 问题,导致长时预测质量下降
- 缺乏专门针对机器人视频世界模型的奖励对齐方法和长时推理稳定性策略
- 提出**RoboAlign-R1** 框架,结合**奖励对齐后训练(reward-aligned post-training)** 与**稳定长时推理(stabilized long-horizon inference)**
- 构建**RobotWorldBench** 基准(10,000个带注释的**视频-指令对**),训练多模态教师评判器**RoboAlign-Judge**,提供**六维细粒度评估** (包括指令跟随、操作准确率、物理合理性等)
- 将教师模型**蒸馏(distill)** 为轻量级学生奖励模型,用于高效的**强化学习(RL)后训练**
- 引入**滑动窗口重编码(Sliding Window Re-encoding, SWR)**,一种无需训练(training-free)的推理策略,通过定期刷新生成上下文来减少长时滚动漂移
- **奖励对齐后训练范式**:首次将**教师-学生蒸馏** 与**强化学习** 结合,使视频世界模型与任务相关性(指令跟随、操作准确率等)对齐,而非仅优化低级重建损失
- **SWR策略**:无需额外训练即可显著改善长时预测质量,仅增加约1%延迟,实现**SSIM提升2.8%** 和**LPIPS降低9.8%**
- **六维细粒度评估基准**:提供**RobotWorldBench** 和**RoboAlign-Judge**,支持对生成视频的多维度自动评价,填补领域空白
- **轻量学生模型高效对齐**:通过知识蒸馏将复杂教师评判功能压缩为学生奖励模型,使RL后训练实用化
- 提出**RoboAlign-R1** 整体框架,在域内评估协议下,六维聚合分数比最强基线提升**10.1%**,其中**操作准确率提升7.5%**,**指令跟随提升4.6%**
- 通过外部**VLM交叉验证** 和**盲人人类研究** 进一步验证了排名改进的有效性
- **SWR** 方法显著改善长时预测质量,为视频世界模型的长时推理提供了轻量级解决方案
- 整体表明**奖励对齐后训练** 与**稳定长时解码** 能够提高机器人视频世界模型的**任务一致性**、**物理真实感** 和**长时预测质量**,为该领域提供了新的优化方向