该论文旨在解决视觉运动模型预测控制(visuomotor MPC)中的两个关键问题:
- 传统方法需要预先获取目标图像作为参考,但在新环境中提前获得目标图像具有挑战性
- 使用图像传达目标与使用自然语言相比,交互性有限
论文提出了一种在视觉-语言对齐(vision-language-aligned, VLA)潜在空间中学习的接地世界模型(Grounded World Model, GWM):
- 将世界模型学习在视觉-语言对齐的潜在空间中
- 每个提议的动作根据其未来结果与任务指令的接近程度进行评分,通过嵌入相似性来反映
- 该方法将视觉运动模型预测控制转换为视觉语言对齐模型,超越了基于视觉语言模型(VLM)的视觉语言对齐方法
论文的核心创新点包括:
- 提出了接地世界模型(GWM)概念,将世界模型学习在视觉-语言对齐的潜在空间中
- 实现了从图像目标到自然语言指令的范式转变,使模型能够直接根据任务指令评估动作提案
- 在语义泛化能力上超越了传统的视觉语言对齐方法,特别是在处理未见过的视觉信号和指代表达时
论文对该领域的整体贡献包括:
- 提出了一种新的视觉运动规划框架,能够直接使用自然语言指令进行规划
- 在提出的WISER基准测试中,GWM-MPC在包含288个任务的测试集上取得了87%的成功率,这些任务具有未见过的视觉信号和指代表达
- 与传统视觉语言对齐方法(平均成功率22%)相比,显著提升了语义泛化能力,同时避免了过拟合训练集的问题