← 返回论文列表

基于语义可泛化规划的接地世界模型
Grounded World Model for Semantically Generalizable Planning

作者: Quanyi Li, Lan Feng, Haonan Zhang 等7人
arXiv: 2604.11751v1
分类: cs.RO, cs.AI
📝 论文摘要
在模型预测控制中,世界模型通过预测不同行动方案的未来结果,并对其进行评分以指导最优行动选择。对于视觉运动模型预测控制,评分函数基于预测图像与目标图像在预训练视觉编码器(如DINO和JEPA)潜在空间中的距离度量。然而,在执行任务前获取目标图像具有挑战性,尤其是在新环境中。此外,与自然语言相比,通过图像传达目标信息的交互性有限。本研究提出在视觉-语言对齐的潜在空间中学习基础世界模型,从而根据每个行动方案的未来结果与任务指令的接近程度进行评分,这种接近程度通过嵌入向量的相似性体现。该方法将视觉运动模型预测控制转化为视觉语言智能体,在语义泛化能力上超越了基于视觉语言模型的传统方案。在提出的WISER基准测试中,基础世界模型-模型预测控制方案在包含288项任务的测试集上取得了87%的成功率,这些任务具有训练时未见的视觉信号和指代表达,但仍可通过训练演示的动作解决。相比之下,传统视觉语言智能体虽然在训练集上以90%的成功率过拟合,但在测试集上的平均成功率仅为22%。

📊 核心分析

🎯 研究动机
该论文旨在解决视觉运动模型预测控制(visuomotor MPC)中的两个关键问题: - 传统方法需要预先获取目标图像作为参考,但在新环境中提前获得目标图像具有挑战性 - 使用图像传达目标与使用自然语言相比,交互性有限
🔧 核心方法
论文提出了一种在视觉-语言对齐(vision-language-aligned, VLA)潜在空间中学习的接地世界模型(Grounded World Model, GWM): - 将世界模型学习在视觉-语言对齐的潜在空间中 - 每个提议的动作根据其未来结果与任务指令的接近程度进行评分,通过嵌入相似性来反映 - 该方法将视觉运动模型预测控制转换为视觉语言对齐模型,超越了基于视觉语言模型(VLM)的视觉语言对齐方法
💡 核心创新
论文的核心创新点包括: - 提出了接地世界模型(GWM)概念,将世界模型学习在视觉-语言对齐的潜在空间中 - 实现了从图像目标到自然语言指令的范式转变,使模型能够直接根据任务指令评估动作提案 - 在语义泛化能力上超越了传统的视觉语言对齐方法,特别是在处理未见过的视觉信号和指代表达时
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了一种新的视觉运动规划框架,能够直接使用自然语言指令进行规划 - 在提出的WISER基准测试中,GWM-MPC在包含288个任务的测试集上取得了87%的成功率,这些任务具有未见过的视觉信号和指代表达 - 与传统视觉语言对齐方法(平均成功率22%)相比,显著提升了语义泛化能力,同时避免了过拟合训练集的问题