← 返回论文列表

Goal2Pixel:将目标锚定到像素的视觉语言导航
Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation

作者: Muyi Bao, Yuxin Cai, Hang Xu 等10人
arXiv: 2606.01621v1
分类: cs.CV, cs.RO
📝 论文摘要
视觉-语言模型(VLM)已成为连续环境中视觉与语言导航(VLN-CE)的常见基础。然而,大多数基于VLM的方法将导航建模为低级动作预测,这种接口存在歧义、局限于短时运动基元,且因重复调用VLM而效率低下。我们提出Goal2Pixel,一种纯基于像素的范式,将VLN-CE重新定义为可导航像素定位。Goal2Pixel不预测动作,而是将图像平面作为VLM推理与机器人运动之间的统一空间接口:模型预测智能体的可见可导航像素,该像素经反投影后成为用于前向导航的3D航点。对于非前向动作,我们在图像平面上附加辅助指令区域,其中左/右/底部区域分别被解释为左转、右转和停止。为实现长时域导航,我们提出一种可见感知的关键帧记忆机制,用于紧凑且信息丰富的历史表示。为使预训练VLM适应可导航像素定位,我们引入语义嵌入和坐标感知辅助损失。Goal2Pixel在达到竞争性最先进性能的同时,比先前方法所需VLM推理次数更少。在R2R-CE Val-Unseen上,它以每幕仅7.75次VLM调用实现54.1%的SR和52.5%的SPL,相比直接动作预测(32.9% SR,每幕46.62次调用)减少了6倍调用量。这一趋势在RxR-CE上同样成立。项目页面:https://baobao0926.github.io/Goal2Pixel/。

📊 核心分析

🎯 研究动机
- 现有基于**视觉-语言模型(Vision-Language Model, VLM)** 的导航方法将任务建模为**低级动作预测(low-level action prediction)**,导致动作接口模糊、受限于短视运动基元,且需要频繁查询VLM,效率低下 - **视觉-语言导航连续环境(VLN-CE)** 中,缺乏一种统一且高效的像素级空间接口来桥接VLM推理与机器人运动控制 - 背景:VLM已成为VLN-CE的常见基础,但现有范式未能充分发挥VLM的视觉空间理解能力
🔧 核心方法
- 提出**Goal2Pixel** 范式,将VLN-CE重新定义为**可导航像素地面化(navigable pixel grounding)**:模型预测一个可见的可导航像素,通过**反投影(back-projection)** 得到3D航点用于前进导航 - 针对非前进动作,在图像平面追加**辅助指令区域(auxiliary directive regions)**:左/右/底部区域分别对应左转、右转和停止 - 设计**可见性感知关键帧记忆(visibility-aware keyframe memory)**,用于紧凑且信息丰富的历史表示,支持长视距导航 - 引入**语义嵌入(semantic embeddings)** 和**坐标感知辅助损失(coordinate-aware auxiliary losses)**,以适配预训练VLM到可导航像素地面化任务
💡 核心创新
- **首创纯像素范式**:首次将VLN-CE从低级动作预测转变为像素级目标接地,利用图像平面作为统一空间接口,避免了动作歧义和不必要的VLM查询 - **高效推理**:在R2R-CE Val-Unseen上仅需7.75次VLM调用/回合(相比直接动作预测的46.62次),性能却提升(SR 54.1% vs 32.9%),实现**6倍调用减少** 与SOTA效果兼得 - **新颖的历史记忆机制**:可见性感知关键帧记忆能高效保留长时信息,无需存储密集帧序列,提升长视距导航能力
🏆 总体贡献
- 为VLN-CE领域提供了一种全新的**像素级接地(pixel-level grounding)** 范式,显著提升推理效率并保持高成功率 - 在**R2R-CE** 和**RxR-CE** 两个标准基准上达到竞争性SOTA性能,验证了方法的有效性和泛化性 - 开源项目页面并提供代码复现,促进社区在像素级导航接口方向的进一步研究