- 空中**视觉-语言导航(Vision-Language Navigation, VLN)** 要求智能体根据自然语言指令在三维环境中进行闭环感知和行动
- 现有方法通常生成完整视频序列,但无法有效利用**世界状态预测(world state prediction)** 来指导动作决策
- 需要一种能够预测潜在世界演化并根据预测后果采取行动的世界-动作(world-action)问题求解框架
- 提出**WorldVLN**,首个用于空中VLN的**自回归世界动作模型(autoregressive world action model, WAM)**
- 采用**潜在自回归视频主干(latent autoregressive video backbone)** 预测短时世界状态变迁,并直接解码为可执行的航点动作(waypoint actions)
- 引入**动作感知GRPO(Action-aware GRPO)**,这是首个针对自回归WAM量身定制的强化学习方法,通过下游展开后果优化航点决策
- 采用两阶段训练框架:先让视频先验适应指令条件的导航动态,再使用强化学习优化决策
- **首创性**:首次提出自回归世界动作模型用于空中VLN,将问题重构为预测驱动的世界-动作问题,而非生成完整视频
- **闭环预测**:每个动作段执行后将最新观察编码回自回归上下文,实现闭环世界-动作预测,提升对动态环境的适应能力
- **训练创新**:提出两阶段训练和动作感知GRPO,将视频先验与指令条件导航动态对齐,并通过强化学习精细化动作决策
- 在公共户外和室内基准上,**成功率(success rate)** 提升12%以上,在困难案例上优势更大
- 实现**零样本(zero-shot)** 迁移到真实无人机部署,展示了方法在空间动作任务中的实用潜力
- 提供开源演示和代码,为空中**视觉-语言-动作(Vision-Language-Action, VLA)** 社区提供新范式与基线