RoboAlign-R1: 用于机器人视频世界模型的蒸馏多模态奖励对齐

📝 论文摘要

现有机器人视频世界模型通常使用重建和感知相似性等低级目标进行训练，但这些目标与机器人决策中最重要的能力（包括指令遵循、操作成功和物理合理性）对齐不佳。此外，它们在长程自回归预测中还存在误差累积问题。我们提出RoboAlign-R1框架，该框架将奖励对齐的后训练与稳定的长程推理相结合，用于机器人视频世界模型。我们构建了RobotWorldBench基准，包含从四个机器人数据源收集的10,000个带注释的视频-指令对，并训练了一个多模态教师评判模型RoboAlign-Judge，以提供对生成视频的细粒度六维评估。然后，我们将教师模型蒸馏为轻量级学生奖励模型，用于高效的基于强化学习的后训练。为减少长程滚动的漂移，我们进一步引入滑动窗口重编码（SWR），这是一种无需训练的推理策略，可周期性地刷新生成上下文。在我们的域内评估协议下，RoboAlign-R1在聚合六维评分上比最强基线提高了10.1%，其中操作准确性提高7.5%，指令遵循提高4.6%；这些排名改进进一步得到基于外部VLM的交叉验证和盲人研究的支持。同时，SWR仅增加约1%的延迟即可改善长程预测质量，使SSIM提升2.8%，LPIPS降低9.8%。这些结果表明，奖励对齐的后训练和稳定的长程解码提高了机器人视频世界模型的任务一致性、物理真实感和长程预测质量。

🎯 研究动机

- 现有机器人视频世界模型使用低级目标（如重建和感知相似性）训练，与机器人决策所需的关键能力（**指令跟随**、**操作成功**、**物理合理性**）对齐性差 - **自回归预测** 在长时间跨度下存在**误差累积** 问题，导致长时预测质量下降 - 缺乏专门针对机器人视频世界模型的奖励对齐方法和长时推理稳定性策略

🔧 核心方法

- 提出**RoboAlign-R1** 框架，结合**奖励对齐后训练(reward-aligned post-training)** 与**稳定长时推理(stabilized long-horizon inference)** - 构建**RobotWorldBench** 基准（10,000个带注释的**视频-指令对**），训练多模态教师评判器**RoboAlign-Judge**，提供**六维细粒度评估** （包括指令跟随、操作准确率、物理合理性等） - 将教师模型**蒸馏(distill)** 为轻量级学生奖励模型，用于高效的**强化学习(RL)后训练** - 引入**滑动窗口重编码(Sliding Window Re-encoding, SWR)**，一种无需训练(training-free)的推理策略，通过定期刷新生成上下文来减少长时滚动漂移

💡 核心创新

- **奖励对齐后训练范式**：首次将**教师-学生蒸馏** 与**强化学习** 结合，使视频世界模型与任务相关性（指令跟随、操作准确率等）对齐，而非仅优化低级重建损失 - **SWR策略**：无需额外训练即可显著改善长时预测质量，仅增加约1%延迟，实现**SSIM提升2.8%** 和**LPIPS降低9.8%** - **六维细粒度评估基准**：提供**RobotWorldBench** 和**RoboAlign-Judge**，支持对生成视频的多维度自动评价，填补领域空白 - **轻量学生模型高效对齐**：通过知识蒸馏将复杂教师评判功能压缩为学生奖励模型，使RL后训练实用化

🏆 总体贡献

- 提出**RoboAlign-R1** 整体框架，在域内评估协议下，六维聚合分数比最强基线提升**10.1%**，其中**操作准确率提升7.5%**，**指令跟随提升4.6%** - 通过外部**VLM交叉验证** 和**盲人人类研究** 进一步验证了排名改进的有效性 - **SWR** 方法显著改善长时预测质量，为视频世界模型的长时推理提供了轻量级解决方案 - 整体表明**奖励对齐后训练** 与**稳定长时解码** 能够提高机器人视频世界模型的**任务一致性**、**物理真实感** 和**长时预测质量**，为该领域提供了新的优化方向

RoboAlign-R1: 用于机器人视频世界模型的蒸馏多模态奖励对齐
RoboAlign-R1: Distilled Multimodal Reward Alignment for Robot Video World Models

📊 核心分析

RoboAlign-R1: 用于机器人视频世界模型的蒸馏多模态奖励对齐 RoboAlign-R1: Distilled Multimodal Reward Alignment for Robot Video World Models

📊 核心分析

RoboAlign-R1: 用于机器人视频世界模型的蒸馏多模态奖励对齐
RoboAlign-R1: Distilled Multimodal Reward Alignment for Robot Video World Models