当前最强大的视觉-语言模型(Vision-Language Models, VLMs)在作为强化学习(reinforcement learning)的评估器时,存在两个关键缺陷:1) 在部分可观测性(partial observability)和分布偏移(distribution shift)下容易失效;2) 导致策略(policy)利用模型的感知错误(perceptual errors)而非真正解决问题,即奖励黑客(reward hacking)。这限制了VLM作为机器人学习监督信号的可靠性和实用性。
论文提出了SOLE-R1模型,其核心方法包括:
- **模型设计**:一个专门用于视频-语言推理(video-language reasoning)的模型,仅根据原始视频观察和自然语言目标,执行**逐时间步的时空思维链(spatiotemporal chain-of-thought, CoT)推理**,并输出密集的任务进度估计作为奖励信号。
- **数据合成**:开发了一个大规模的视频轨迹和推理合成管道,生成与连续进度监督对齐的、有时间依据的思维链轨迹数据。
- **训练框架**:采用**混合训练框架**,将**监督微调(supervised fine-tuning)** 与**来自可验证奖励的强化学习(RL from verifiable rewards)** 相结合。
论文的核心创新点在于:
1. **首创的专用奖励模型**:首次提出了一个专门设计作为**在线强化学习(online RL)唯一奖励信号(sole reward signal)** 的视频-语言推理模型(SOLE-R1),而非简单复用通用VLM。
2. **时空思维链推理**:引入了**逐时间步的时空思维链推理**机制,使模型能够进行细粒度、可解释的任务进度评估,显著提升了在部分可观测和分布变化下的鲁棒性。
3. **数据与训练范式创新**:通过大规模合成**时间上 grounded 的推理数据**,并结合**混合训练框架**,使模型能直接从视频和语言中学习可靠的进度估计,避免了传统方法对真实奖励、成功指示器或演示的依赖。
4. **零样本在线学习能力**:实现了**零样本(zero-shot)在线强化学习**,机器人能从随机初始化开始,在没有真实奖励、成功标签、演示或任务特定调优的情况下,学习全新的操作任务。
论文对该领域的总体贡献是:
- **提出了一个新颖且鲁棒的机器人学习范式**:证明了仅使用一个专门设计的视频-语言推理模型作为奖励,就能实现有效的在线强化学习,为利用大模型监督机器人学习提供了更可靠的新路径。
- **显著提升了性能与鲁棒性**:在四个模拟环境和一个真实机器人场景中,SOLE-R1在24个未见任务上取得了成功,其性能大幅超越了包括GPT-5和Gemini-3-Pro在内的强大视觉-语言奖励模型,并且对奖励黑客行为表现出显著更高的鲁棒性。
- **提供了可推广的框架与资源**:所开发的数据合成管道、模型架构和混合训练框架,为未来构建更可靠的、以模型为中心的机器人学习系统提供了重要的方法论基础和参考。