该论文旨在解决机器人操作任务中,基于视觉-语言-动作(Vision-Language-Action, VLA)模型的价值函数估计不可靠的问题。研究背景是:虽然大规模预训练的VLA模型推动了机器人操作的发展,但在真实世界部署中,由于部分可观测性和延迟反馈,仍然面临挑战。强化学习通过价值函数评估任务进度并指导策略改进,但现有基于视觉-语言模型(Vision-Language Models, VLMs)构建的价值模型难以捕捉时间动态,导致在长视野任务中的价值估计不可靠。
论文提出了ViVa模型,这是一种视频生成式价值模型。其核心方法是:
- 重新利用一个预训练的视频生成器(video generator)进行价值估计。
- 以当前观测和机器人本体感觉(proprioception)作为输入。
- 联合预测未来的本体感觉和一个代表当前状态价值的标量值。
- 通过利用预训练视频生成器的时空先验(spatiotemporal priors),将价值估计建立在预测的具身动态(embodiment dynamics)之上。
- 将ViVa集成到RECAP框架中进行评估。
论文的核心创新点在于:
- **首创性地将预训练视频生成器重新用于价值估计**:不同于传统基于静态图像或语言模型的价值函数,ViVa利用视频生成模型固有的时空建模能力来预测未来状态并评估当前价值。
- **价值估计与具身动态预测的深度耦合**:ViVa的价值估计不是基于静态“快照”,而是内在地与对未来机器人本体状态(即“具身动态”)的预见(foresight)相结合,从而更准确地反映任务进度。
- **利用大规模视频语料的时空先验**:这使得模型能够泛化到新物体,展示了视频生成模型在价值估计任务上的潜力,为机器人强化学习开辟了新方向。
论文对该领域的总体贡献是:
- 提出了ViVa,一个新颖的视频生成式价值模型,有效解决了现有VLM价值模型在长视野任务中捕捉时间动态的不足。
- 在真实世界的盒子组装任务上,将ViVa集成到RECAP中带来了显著的性能提升。
- 通过定性分析证实,ViVa能产生更可靠的价值信号,准确反映任务进度。
- 证明了利用视频语料的时空先验可以使价值模型泛化到新物体,凸显了视频生成模型在机器人价值估计领域的应用前景。