WorldMAP：利用生成式世界模型自举视觉语言导航轨迹预测

📝 论文摘要

视觉语言模型与世界生成模型正为具身导航开辟新机遇。前者越来越多地被用作直接规划器或轨迹预测器，后者则通过想象未来视图支持前瞻推理。然而仅凭单次第一人称观察预测可靠轨迹仍具挑战：当前视觉语言模型常生成不稳定轨迹，世界模型虽能合成合理未来场景，却无法直接提供导航学习所需的具象化信号。这引出一个核心问题：如何将生成的未来转化为具象化轨迹预测的监督信号？我们提出WorldMAP框架，通过师生架构将世界模型生成的未来转化为持久化语义空间结构与规划衍生的监督信号。其世界模型驱动的教师模块从生成视频构建语义空间记忆，定位任务相关目标与障碍物，并通过显式规划生成轨迹伪标签。随后训练配备多假设轨迹头的轻量级学生模型，使其能够直接从视觉语言输入预测导航轨迹。在Target-Bench测试中，WorldMAP在对比方法中取得最优平均位移误差与最终位移误差，较最佳基线分别降低18.0%与42.1%，同时将开源小规模视觉语言模型的动态时间规整性能提升至可与专有模型竞争的水平。更广泛而言，研究结果表明在具身导航领域，世界模型的价值或许不在于提供可直接驱动行动的想象证据，而在于为导航学习合成结构化监督信号。

🎯 研究动机

该论文旨在解决视觉语言导航(Vision-Language Navigation, VLN)中轨迹预测的挑战。研究背景是：虽然视觉语言模型(VLMs)和生成世界模型(generative world models)为具身导航(embodied navigation)带来了新机遇，但仅从单次自我中心(egocentric)观察预测可靠轨迹仍然困难。现有方法存在两个主要问题： - VLMs作为直接规划器或轨迹预测器时，生成的轨迹不稳定。 - 世界模型能够合成合理的未来视图，但无法直接为导航学习提供所需的具身化(grounded)信号。核心研究问题是：如何将生成的未来视图转化为具身化轨迹预测的监督信号？

🔧 核心方法

论文提出了WorldMAP框架，这是一个教师-学生(teacher-student)框架，具体包含： - **世界模型驱动的教师(World-Model-Driven Teacher)**： - 从生成视频(generated videos)中构建语义-空间记忆(semantic-spatial memory)。 - 对任务相关的目标(targets)和障碍物(obstacles)进行具身化定位(grounding)。 - 通过显式规划(explicit planning)产生轨迹伪标签(trajectory pseudo-labels)。 - **轻量级学生(Lightweight Student)**： - 配备多假设轨迹头(multi-hypothesis trajectory head)。 - 直接从视觉语言输入(vision-language inputs)学习预测导航轨迹。该方法的核心是将世界模型生成的未来视图转化为持久化的语义-空间结构和规划衍生的监督信号。

💡 核心创新

论文的核心创新点在于提出了一种新颖的框架，将生成世界模型的“想象力”转化为可学习的监督信号，用于训练稳健的轨迹预测模型。其独特之处体现在： - **范式转换(Paradigm Shift)**：重新定位了世界模型在具身导航中的价值——不是直接提供用于行动的想象证据(imagined evidence)，而是用于合成结构化的监督信号(structured supervision)来训练导航模型。 - **监督信号生成机制**：首创了通过教师模型将世界模型生成的未来视频，转化为包含语义-空间记忆、具身化目标/障碍物以及规划伪标签的复合监督信号。 - **解耦与效率**：将耗时的世界模型推理（教师）与高效的在线轨迹预测（学生）解耦，使得轻量级学生模型能够直接从原始输入预测轨迹，提升了实用性和效率。

🏆 总体贡献

论文对该领域的总体贡献包括： - **提出并验证了新范式**：证明了在具身导航中，世界模型的主要价值在于为导航学习合成结构化的监督信号，而非直接提供行动依据。 - **实现了性能突破**：在Target-Bench基准测试上，WorldMAP取得了最佳的平均位移误差(ADE)和最终位移误差(FDE)，相对于最佳基线分别降低了18.0%和42.1%。 - **提升了开源模型竞争力**：成功将一个小型开源VLM的性能提升到与专有模型(proprietary models)相竞争的水平（以动态时间规整(DTW)指标衡量）。 - **提供了通用框架**：提出的教师-学生框架为如何利用生成模型增强具身智能体的学习提供了可推广的思路。

WorldMAP：利用生成式世界模型自举视觉语言导航轨迹预测
WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

📊 核心分析

WorldMAP：利用生成式世界模型自举视觉语言导航轨迹预测 WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

📊 核心分析

WorldMAP：利用生成式世界模型自举视觉语言导航轨迹预测
WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models