← 返回论文列表

SOLE-R1:视频语言推理作为机器人强化学习的唯一奖励机制
SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning

作者: Philip Schroeder, Thomas Weng, Karl Schmeckpeper 等6人
arXiv: 2603.28730v1
分类: cs.RO, cs.CL, cs.CV
📝 论文摘要
视觉语言模型(VLMs)已在多样化任务中展现出卓越能力,这推动了利用此类模型监督机器人学习的探索。然而,当作为强化学习(RL)的评估器时,当前最强模型常在部分可观测性和分布偏移条件下失效,导致策略利用感知错误而非真正解决问题。为突破这一局限,我们提出SOLE-R1(自观测学习器)——一种专门设计为在线强化学习提供唯一奖励信号的视频语言推理模型。该模型仅接收原始视频观测和自然语言目标,即可执行逐时间步的时空思维链推理,并生成可直接作为奖励使用的密集任务进度估计值。 为训练SOLE-R1,我们开发了大规模视频轨迹与推理合成流程,能生成与连续进度监督对齐的时序锚定思维链轨迹。该数据与基础空间推理及多帧时序推理能力相结合,通过耦合监督微调与可验证奖励强化学习的混合框架进行训练。在四个不同仿真环境及真实机器人场景中,SOLE-R1实现了从随机初始化的零样本在线强化学习:机器人在没有真实奖励、成功标识、演示数据或任务特定调优的情况下,成功掌握了未见过的操作任务。SOLE-R1在24项未见任务中表现优异,显著超越了包括GPT-5和Gemini-3-Pro在内的先进视觉语言奖励模型,同时对奖励操控展现出更强的鲁棒性。

📊 核心分析

🎯 研究动机
当前最强大的视觉-语言模型(Vision-Language Models, VLMs)在作为强化学习(reinforcement learning)的评估器时,存在两个关键缺陷:1) 在部分可观测性(partial observability)和分布偏移(distribution shift)下容易失效;2) 导致策略(policy)利用模型的感知错误(perceptual errors)而非真正解决问题,即奖励黑客(reward hacking)。这限制了VLM作为机器人学习监督信号的可靠性和实用性。
🔧 核心方法
论文提出了SOLE-R1模型,其核心方法包括: - **模型设计**:一个专门用于视频-语言推理(video-language reasoning)的模型,仅根据原始视频观察和自然语言目标,执行**逐时间步的时空思维链(spatiotemporal chain-of-thought, CoT)推理**,并输出密集的任务进度估计作为奖励信号。 - **数据合成**:开发了一个大规模的视频轨迹和推理合成管道,生成与连续进度监督对齐的、有时间依据的思维链轨迹数据。 - **训练框架**:采用**混合训练框架**,将**监督微调(supervised fine-tuning)** 与**来自可验证奖励的强化学习(RL from verifiable rewards)** 相结合。
💡 核心创新
论文的核心创新点在于: 1. **首创的专用奖励模型**:首次提出了一个专门设计作为**在线强化学习(online RL)唯一奖励信号(sole reward signal)** 的视频-语言推理模型(SOLE-R1),而非简单复用通用VLM。 2. **时空思维链推理**:引入了**逐时间步的时空思维链推理**机制,使模型能够进行细粒度、可解释的任务进度评估,显著提升了在部分可观测和分布变化下的鲁棒性。 3. **数据与训练范式创新**:通过大规模合成**时间上 grounded 的推理数据**,并结合**混合训练框架**,使模型能直接从视频和语言中学习可靠的进度估计,避免了传统方法对真实奖励、成功指示器或演示的依赖。 4. **零样本在线学习能力**:实现了**零样本(zero-shot)在线强化学习**,机器人能从随机初始化开始,在没有真实奖励、成功标签、演示或任务特定调优的情况下,学习全新的操作任务。
🏆 总体贡献
论文对该领域的总体贡献是: - **提出了一个新颖且鲁棒的机器人学习范式**:证明了仅使用一个专门设计的视频-语言推理模型作为奖励,就能实现有效的在线强化学习,为利用大模型监督机器人学习提供了更可靠的新路径。 - **显著提升了性能与鲁棒性**:在四个模拟环境和一个真实机器人场景中,SOLE-R1在24个未见任务上取得了成功,其性能大幅超越了包括GPT-5和Gemini-3-Pro在内的强大视觉-语言奖励模型,并且对奖励黑客行为表现出显著更高的鲁棒性。 - **提供了可推广的框架与资源**:所开发的数据合成管道、模型架构和混合训练框架,为未来构建更可靠的、以模型为中心的机器人学习系统提供了重要的方法论基础和参考。