- 现有**视觉-语言导航(Vision-Language Navigation, VLN)** 方法依赖**视觉-语言模型(Vision-Language Model, VLM)** 进行端到端动作预测,但缺乏对智能体、指令和场景之间关系的显式、可解释理解
- 传统的显式场景地图方法需要额外3D传感器,阻碍大规模**视觉-语言预训练(vision-language pre-training)**
- 研究背景:VLN要求智能体理解自身状态和任务进度,现有方法难以在端到端框架中实现这种自我认知
- 提出**AwareVLN** 框架,赋予导航模型**自我意识推理(self-aware reasoning)** 机制,实现完全**端到端(end-to-end)** 且**数据驱动(data-driven)** 的智能体状态与任务进度理解
- 包含两个关键模块:**结构推理模块(structural reasoning module)**,用于促进**空间与任务导向的自我意识(spatial and task-oriented self-awareness)**
- 引入**自动数据引擎(automatic data engine)** 配合**进度划分(progress division)** 策略,以有效生成训练数据并指导模型学习
- **首创性**:首次将**自我意识推理(self-aware reasoning)** 引入VLN,使智能体在不依赖额外3D传感器或显式地图的情况下,以端到端方式感知自身状态和任务进展
- **结构推理模块**:区别于现有黑盒VLM推理,该模块显式建模空间关系和任务进度的结构化认知
- **自动数据引擎**:通过进度划分自动生成标注数据,解决了自我意识训练中难以获得真实状态监督的问题
- 为VLN领域提供了一种**自我意识推理范式(self-aware reasoning paradigm)**,弥合了端到端方法与可解释推理之间的鸿沟
- 在Habitat模拟器的多个数据集上显著超越先前**最先进(state-of-the-art)** 方法,证明有效性
- 开源项目页面(https://gwxuan.github.io/AwareVLN/)促进社区复现与后续研究