- 现有基于**视觉-语言模型(Vision-Language Model, VLM)** 的导航方法将任务建模为**低级动作预测(low-level action prediction)**,导致动作接口模糊、受限于短视运动基元,且需要频繁查询VLM,效率低下
- **视觉-语言导航连续环境(VLN-CE)** 中,缺乏一种统一且高效的像素级空间接口来桥接VLM推理与机器人运动控制
- 背景:VLM已成为VLN-CE的常见基础,但现有范式未能充分发挥VLM的视觉空间理解能力
- 提出**Goal2Pixel** 范式,将VLN-CE重新定义为**可导航像素地面化(navigable pixel grounding)**:模型预测一个可见的可导航像素,通过**反投影(back-projection)** 得到3D航点用于前进导航
- 针对非前进动作,在图像平面追加**辅助指令区域(auxiliary directive regions)**:左/右/底部区域分别对应左转、右转和停止
- 设计**可见性感知关键帧记忆(visibility-aware keyframe memory)**,用于紧凑且信息丰富的历史表示,支持长视距导航
- 引入**语义嵌入(semantic embeddings)** 和**坐标感知辅助损失(coordinate-aware auxiliary losses)**,以适配预训练VLM到可导航像素地面化任务
- **首创纯像素范式**:首次将VLN-CE从低级动作预测转变为像素级目标接地,利用图像平面作为统一空间接口,避免了动作歧义和不必要的VLM查询
- **高效推理**:在R2R-CE Val-Unseen上仅需7.75次VLM调用/回合(相比直接动作预测的46.62次),性能却提升(SR 54.1% vs 32.9%),实现**6倍调用减少** 与SOTA效果兼得
- **新颖的历史记忆机制**:可见性感知关键帧记忆能高效保留长时信息,无需存储密集帧序列,提升长视距导航能力
- 为VLN-CE领域提供了一种全新的**像素级接地(pixel-level grounding)** 范式,显著提升推理效率并保持高成功率
- 在**R2R-CE** 和**RxR-CE** 两个标准基准上达到竞争性SOTA性能,验证了方法的有效性和泛化性
- 开源项目页面并提供代码复现,促进社区在像素级导航接口方向的进一步研究