Goal2Pixel：将目标锚定到像素的视觉语言导航

📝 论文摘要

视觉-语言模型（VLM）已成为连续环境中视觉与语言导航（VLN-CE）的常见基础。然而，大多数基于VLM的方法将导航建模为低级动作预测，这种接口存在歧义、局限于短时运动基元，且因重复调用VLM而效率低下。我们提出Goal2Pixel，一种纯基于像素的范式，将VLN-CE重新定义为可导航像素定位。Goal2Pixel不预测动作，而是将图像平面作为VLM推理与机器人运动之间的统一空间接口：模型预测智能体的可见可导航像素，该像素经反投影后成为用于前向导航的3D航点。对于非前向动作，我们在图像平面上附加辅助指令区域，其中左/右/底部区域分别被解释为左转、右转和停止。为实现长时域导航，我们提出一种可见感知的关键帧记忆机制，用于紧凑且信息丰富的历史表示。为使预训练VLM适应可导航像素定位，我们引入语义嵌入和坐标感知辅助损失。Goal2Pixel在达到竞争性最先进性能的同时，比先前方法所需VLM推理次数更少。在R2R-CE Val-Unseen上，它以每幕仅7.75次VLM调用实现54.1%的SR和52.5%的SPL，相比直接动作预测（32.9% SR，每幕46.62次调用）减少了6倍调用量。这一趋势在RxR-CE上同样成立。项目页面：https://baobao0926.github.io/Goal2Pixel/。

🎯 研究动机

- 现有基于**视觉-语言模型(Vision-Language Model, VLM)** 的导航方法将任务建模为**低级动作预测(low-level action prediction)**，导致动作接口模糊、受限于短视运动基元，且需要频繁查询VLM，效率低下 - **视觉-语言导航连续环境(VLN-CE)** 中，缺乏一种统一且高效的像素级空间接口来桥接VLM推理与机器人运动控制 - 背景：VLM已成为VLN-CE的常见基础，但现有范式未能充分发挥VLM的视觉空间理解能力

🔧 核心方法

- 提出**Goal2Pixel** 范式，将VLN-CE重新定义为**可导航像素地面化(navigable pixel grounding)**：模型预测一个可见的可导航像素，通过**反投影(back-projection)** 得到3D航点用于前进导航 - 针对非前进动作，在图像平面追加**辅助指令区域(auxiliary directive regions)**：左/右/底部区域分别对应左转、右转和停止 - 设计**可见性感知关键帧记忆(visibility-aware keyframe memory)**，用于紧凑且信息丰富的历史表示，支持长视距导航 - 引入**语义嵌入(semantic embeddings)** 和**坐标感知辅助损失(coordinate-aware auxiliary losses)**，以适配预训练VLM到可导航像素地面化任务

💡 核心创新

- **首创纯像素范式**：首次将VLN-CE从低级动作预测转变为像素级目标接地，利用图像平面作为统一空间接口，避免了动作歧义和不必要的VLM查询 - **高效推理**：在R2R-CE Val-Unseen上仅需7.75次VLM调用/回合（相比直接动作预测的46.62次），性能却提升（SR 54.1% vs 32.9%），实现**6倍调用减少** 与SOTA效果兼得 - **新颖的历史记忆机制**：可见性感知关键帧记忆能高效保留长时信息，无需存储密集帧序列，提升长视距导航能力

🏆 总体贡献

- 为VLN-CE领域提供了一种全新的**像素级接地(pixel-level grounding)** 范式，显著提升推理效率并保持高成功率 - 在**R2R-CE** 和**RxR-CE** 两个标准基准上达到竞争性SOTA性能，验证了方法的有效性和泛化性 - 开源项目页面并提供代码复现，促进社区在像素级导航接口方向的进一步研究

Goal2Pixel：将目标锚定到像素的视觉语言导航
Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation

📊 核心分析

Goal2Pixel：将目标锚定到像素的视觉语言导航 Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation

📊 核心分析

Goal2Pixel：将目标锚定到像素的视觉语言导航
Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation