该论文旨在解决无人机视觉语言导航(UAV vision-language navigation, VLN)中的关键挑战:在复杂三维环境中,从第一人称视角执行模糊的多步骤长时程指令导航。现有零样本(zero-shot)方法存在局限:过度依赖大型基础模型、使用通用提示词、模块间协调松散。
论文提出FineCog-Nav框架,这是一种受人类认知启发的自上而下(top-down)框架:
- 将导航任务分解为细粒度(fine-grained)认知模块:语言处理、感知(perception)、注意力(attention)、记忆(memory)、想象(imagination)、推理(reasoning)和决策(decision-making)。
- 每个模块由中等规模的基础模型驱动,配备角色特定(role-specific)的提示词(prompts)和结构化的输入-输出协议(input-output protocols)。
- 构建AerialVLN-Fine基准数据集:包含300条从AerialVLN衍生的轨迹,具有句子级(sentence-level)指令-轨迹对齐和包含明确视觉终点(explicit visual endpoints)与地标参考(landmark references)的精细化指令。
论文的核心创新点在于:
- **细粒度认知模块化架构**:首次将人类高级认知功能系统地分解并整合到无人机零样本导航框架中,超越了传统松散或粗粒度的模块协调方式。
- **角色特定的提示工程与结构化协议**:为每个认知模块定制提示词和交互协议,实现了模块间高效协作与可解释性(interpretability)的提升,而非依赖单一通用提示或大型单体模型。
- **精细化评估基准**:构建的AerialVLN-Fine数据集提供了句子级对齐和更明确的指令,支持对导航过程进行更细粒度的评估,弥补了现有基准的不足。
论文对该领域的整体贡献是:
- 提出了一个新颖的、基于细粒度认知模块化的零样本无人机导航框架FineCog-Nav,在指令遵循(instruction adherence)、长时程规划(long-horizon planning)和未见环境泛化(generalization to unseen environments)方面显著优于现有零样本基线方法。
- 通过实验验证了细粒度认知模块化(fine-grained cognitive modularization)在零样本空中导航任务中的有效性,为构建更可靠、可解释的具身智能体(embodied agents)提供了新思路。
- 发布了高质量的精细化评估基准AerialVLN-Fine,促进了该领域更精确的评估与研究。