← 返回论文列表

WorldVLN:用于空中视觉语言导航的自回归世界动作模型
WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation

作者: Baining Zhao, Jiacheng Xu, Weicheng Feng 等16人
arXiv: 2605.15964v1
分类: cs.RO, cs.CV
📝 论文摘要
空中视觉-语言导航(VLN)要求智能体在三维环境中通过闭环感知与动作遵循自然语言指令。我们认为空中VLN可被形式化定义为一种预测驱动的世界-动作问题:智能体需预先感知潜在的世界演化过程,并根据预测结果采取行动。为此,我们提出WorldVLN——首个面向空中VLN的自回归世界动作模型。不同于生成完整视频片段的全局序列视频生成世界模型,WorldVLN采用潜在自回归视频骨干网络预测短时域的世界状态变迁,并直接将其解码为可执行的航点动作序列。每个动作片段执行后,新接收的观测信息被重新编码回自回归上下文,从而实现闭环的世界-动作预测。我们进一步设计了两阶段训练框架:首先将视频先验嵌入指令条件化导航动力学中,随后提出Action-aware GRPO——首个专为自回归世界动作模型设计的强化学习方法,通过下游执行结果的展开优化航点决策。在公开的室外与室内基准上,WorldVLN持续超越现有视觉-语言-动作基线方法,成功率提升12%以上,且在复杂场景中优势更为显著。该方法还支持零样本迁移至真实无人机部署场景,表明WorldVLN为空间动作任务提供了极具前景的技术路径。演示与代码已公开于https://embodiedcity.github.io/WorldVLN/。

📊 核心分析

🎯 研究动机
- 空中**视觉-语言导航(Vision-Language Navigation, VLN)** 要求智能体根据自然语言指令在三维环境中进行闭环感知和行动 - 现有方法通常生成完整视频序列,但无法有效利用**世界状态预测(world state prediction)** 来指导动作决策 - 需要一种能够预测潜在世界演化并根据预测后果采取行动的世界-动作(world-action)问题求解框架
🔧 核心方法
- 提出**WorldVLN**,首个用于空中VLN的**自回归世界动作模型(autoregressive world action model, WAM)** - 采用**潜在自回归视频主干(latent autoregressive video backbone)** 预测短时世界状态变迁,并直接解码为可执行的航点动作(waypoint actions) - 引入**动作感知GRPO(Action-aware GRPO)**,这是首个针对自回归WAM量身定制的强化学习方法,通过下游展开后果优化航点决策 - 采用两阶段训练框架:先让视频先验适应指令条件的导航动态,再使用强化学习优化决策
💡 核心创新
- **首创性**:首次提出自回归世界动作模型用于空中VLN,将问题重构为预测驱动的世界-动作问题,而非生成完整视频 - **闭环预测**:每个动作段执行后将最新观察编码回自回归上下文,实现闭环世界-动作预测,提升对动态环境的适应能力 - **训练创新**:提出两阶段训练和动作感知GRPO,将视频先验与指令条件导航动态对齐,并通过强化学习精细化动作决策
🏆 总体贡献
- 在公共户外和室内基准上,**成功率(success rate)** 提升12%以上,在困难案例上优势更大 - 实现**零样本(zero-shot)** 迁移到真实无人机部署,展示了方法在空间动作任务中的实用潜力 - 提供开源演示和代码,为空中**视觉-语言-动作(Vision-Language-Action, VLA)** 社区提供新范式与基线