基于语义可泛化规划的接地世界模型

📝 论文摘要

在模型预测控制中，世界模型通过预测不同行动方案的未来结果，并对其进行评分以指导最优行动选择。对于视觉运动模型预测控制，评分函数基于预测图像与目标图像在预训练视觉编码器（如DINO和JEPA）潜在空间中的距离度量。然而，在执行任务前获取目标图像具有挑战性，尤其是在新环境中。此外，与自然语言相比，通过图像传达目标信息的交互性有限。本研究提出在视觉-语言对齐的潜在空间中学习基础世界模型，从而根据每个行动方案的未来结果与任务指令的接近程度进行评分，这种接近程度通过嵌入向量的相似性体现。该方法将视觉运动模型预测控制转化为视觉语言智能体，在语义泛化能力上超越了基于视觉语言模型的传统方案。在提出的WISER基准测试中，基础世界模型-模型预测控制方案在包含288项任务的测试集上取得了87%的成功率，这些任务具有训练时未见的视觉信号和指代表达，但仍可通过训练演示的动作解决。相比之下，传统视觉语言智能体虽然在训练集上以90%的成功率过拟合，但在测试集上的平均成功率仅为22%。

🎯 研究动机

该论文旨在解决视觉运动模型预测控制(visuomotor MPC)中的两个关键问题： - 传统方法需要预先获取目标图像作为参考，但在新环境中提前获得目标图像具有挑战性 - 使用图像传达目标与使用自然语言相比，交互性有限

🔧 核心方法

论文提出了一种在视觉-语言对齐(vision-language-aligned, VLA)潜在空间中学习的接地世界模型(Grounded World Model, GWM)： - 将世界模型学习在视觉-语言对齐的潜在空间中 - 每个提议的动作根据其未来结果与任务指令的接近程度进行评分，通过嵌入相似性来反映 - 该方法将视觉运动模型预测控制转换为视觉语言对齐模型，超越了基于视觉语言模型(VLM)的视觉语言对齐方法

💡 核心创新

论文的核心创新点包括： - 提出了接地世界模型(GWM)概念，将世界模型学习在视觉-语言对齐的潜在空间中 - 实现了从图像目标到自然语言指令的范式转变，使模型能够直接根据任务指令评估动作提案 - 在语义泛化能力上超越了传统的视觉语言对齐方法，特别是在处理未见过的视觉信号和指代表达时

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了一种新的视觉运动规划框架，能够直接使用自然语言指令进行规划 - 在提出的WISER基准测试中，GWM-MPC在包含288个任务的测试集上取得了87%的成功率，这些任务具有未见过的视觉信号和指代表达 - 与传统视觉语言对齐方法（平均成功率22%）相比，显著提升了语义泛化能力，同时避免了过拟合训练集的问题

基于语义可泛化规划的接地世界模型
Grounded World Model for Semantically Generalizable Planning

📊 核心分析

基于语义可泛化规划的接地世界模型 Grounded World Model for Semantically Generalizable Planning

📊 核心分析

基于语义可泛化规划的接地世界模型
Grounded World Model for Semantically Generalizable Planning