该论文旨在解决视觉语言导航(Vision-Language Navigation, VLN)中轨迹预测的挑战。研究背景是:虽然视觉语言模型(VLMs)和生成世界模型(generative world models)为具身导航(embodied navigation)带来了新机遇,但仅从单次自我中心(egocentric)观察预测可靠轨迹仍然困难。现有方法存在两个主要问题:
- VLMs作为直接规划器或轨迹预测器时,生成的轨迹不稳定。
- 世界模型能够合成合理的未来视图,但无法直接为导航学习提供所需的具身化(grounded)信号。
核心研究问题是:如何将生成的未来视图转化为具身化轨迹预测的监督信号?
论文提出了WorldMAP框架,这是一个教师-学生(teacher-student)框架,具体包含:
- **世界模型驱动的教师(World-Model-Driven Teacher)**:
- 从生成视频(generated videos)中构建语义-空间记忆(semantic-spatial memory)。
- 对任务相关的目标(targets)和障碍物(obstacles)进行具身化定位(grounding)。
- 通过显式规划(explicit planning)产生轨迹伪标签(trajectory pseudo-labels)。
- **轻量级学生(Lightweight Student)**:
- 配备多假设轨迹头(multi-hypothesis trajectory head)。
- 直接从视觉语言输入(vision-language inputs)学习预测导航轨迹。
该方法的核心是将世界模型生成的未来视图转化为持久化的语义-空间结构和规划衍生的监督信号。
论文的核心创新点在于提出了一种新颖的框架,将生成世界模型的“想象力”转化为可学习的监督信号,用于训练稳健的轨迹预测模型。其独特之处体现在:
- **范式转换(Paradigm Shift)**:重新定位了世界模型在具身导航中的价值——不是直接提供用于行动的想象证据(imagined evidence),而是用于合成结构化的监督信号(structured supervision)来训练导航模型。
- **监督信号生成机制**:首创了通过教师模型将世界模型生成的未来视频,转化为包含语义-空间记忆、具身化目标/障碍物以及规划伪标签的复合监督信号。
- **解耦与效率**:将耗时的世界模型推理(教师)与高效的在线轨迹预测(学生)解耦,使得轻量级学生模型能够直接从原始输入预测轨迹,提升了实用性和效率。
论文对该领域的总体贡献包括:
- **提出并验证了新范式**:证明了在具身导航中,世界模型的主要价值在于为导航学习合成结构化的监督信号,而非直接提供行动依据。
- **实现了性能突破**:在Target-Bench基准测试上,WorldMAP取得了最佳的平均位移误差(ADE)和最终位移误差(FDE),相对于最佳基线分别降低了18.0%和42.1%。
- **提升了开源模型竞争力**:成功将一个小型开源VLM的性能提升到与专有模型(proprietary models)相竞争的水平(以动态时间规整(DTW)指标衡量)。
- **提供了通用框架**:提出的教师-学生框架为如何利用生成模型增强具身智能体的学习提供了可推广的思路。