WorldVLN：用于空中视觉语言导航的自回归世界动作模型

📝 论文摘要

空中视觉-语言导航（VLN）要求智能体在三维环境中通过闭环感知与动作遵循自然语言指令。我们认为空中VLN可被形式化定义为一种预测驱动的世界-动作问题：智能体需预先感知潜在的世界演化过程，并根据预测结果采取行动。为此，我们提出WorldVLN——首个面向空中VLN的自回归世界动作模型。不同于生成完整视频片段的全局序列视频生成世界模型，WorldVLN采用潜在自回归视频骨干网络预测短时域的世界状态变迁，并直接将其解码为可执行的航点动作序列。每个动作片段执行后，新接收的观测信息被重新编码回自回归上下文，从而实现闭环的世界-动作预测。我们进一步设计了两阶段训练框架：首先将视频先验嵌入指令条件化导航动力学中，随后提出Action-aware GRPO——首个专为自回归世界动作模型设计的强化学习方法，通过下游执行结果的展开优化航点决策。在公开的室外与室内基准上，WorldVLN持续超越现有视觉-语言-动作基线方法，成功率提升12%以上，且在复杂场景中优势更为显著。该方法还支持零样本迁移至真实无人机部署场景，表明WorldVLN为空间动作任务提供了极具前景的技术路径。演示与代码已公开于https://embodiedcity.github.io/WorldVLN/。

🎯 研究动机

- 空中**视觉-语言导航(Vision-Language Navigation, VLN)** 要求智能体根据自然语言指令在三维环境中进行闭环感知和行动 - 现有方法通常生成完整视频序列，但无法有效利用**世界状态预测(world state prediction)** 来指导动作决策 - 需要一种能够预测潜在世界演化并根据预测后果采取行动的世界-动作(world-action)问题求解框架

🔧 核心方法

- 提出**WorldVLN**，首个用于空中VLN的**自回归世界动作模型(autoregressive world action model, WAM)** - 采用**潜在自回归视频主干(latent autoregressive video backbone)** 预测短时世界状态变迁，并直接解码为可执行的航点动作(waypoint actions) - 引入**动作感知GRPO(Action-aware GRPO)**，这是首个针对自回归WAM量身定制的强化学习方法，通过下游展开后果优化航点决策 - 采用两阶段训练框架：先让视频先验适应指令条件的导航动态，再使用强化学习优化决策

💡 核心创新

- **首创性**：首次提出自回归世界动作模型用于空中VLN，将问题重构为预测驱动的世界-动作问题，而非生成完整视频 - **闭环预测**：每个动作段执行后将最新观察编码回自回归上下文，实现闭环世界-动作预测，提升对动态环境的适应能力 - **训练创新**：提出两阶段训练和动作感知GRPO，将视频先验与指令条件导航动态对齐，并通过强化学习精细化动作决策

🏆 总体贡献

- 在公共户外和室内基准上，**成功率(success rate)** 提升12%以上，在困难案例上优势更大 - 实现**零样本(zero-shot)** 迁移到真实无人机部署，展示了方法在空间动作任务中的实用潜力 - 提供开源演示和代码，为空中**视觉-语言-动作(Vision-Language-Action, VLA)** 社区提供新范式与基线

WorldVLN：用于空中视觉语言导航的自回归世界动作模型
WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation

📊 核心分析

WorldVLN：用于空中视觉语言导航的自回归世界动作模型 WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation

📊 核心分析

WorldVLN：用于空中视觉语言导航的自回归世界动作模型
WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation