← 返回论文列表

探索VLM-LLM导航中的瓶颈:3D场景理解能力如何影响零样本VLN
Exploring Bottlenecks in VLM-LLM Navigation: How 3D Scene Understanding Capability Impacts Zero-Shot VLN

作者: Ziyi Xia, Chaoran Xiong, Litao Wei 等5人
arXiv: 2605.14801v1
分类: cs.RO
📝 论文摘要
零样本视觉语言导航因其极低的数据收集成本和固有的泛化能力而受到广泛关注。该范式通常由预训练的视觉语言模型和大语言模型的集成驱动,其中视觉语言模型构建3D场景图,而大语言模型负责高级推理与决策。然而,该系统存在一个关键瓶颈:当前3D感知模型优先追求像素级精度,这与具身导航所要求的严格计算限制和实时效率直接冲突。为填补这一空白,本文量化了3D场景理解能力对视觉语言导航性能的实际影响。基于典型的视觉语言模型-大语言模型框架,我们提出了两个核心子系统的统计成功率上界:1) 依赖拓扑映射语义的慢速大语言模型规划器,以及2) 利用空间坐标和边界框执行大语言模型决策的快速反应式导航器。使用最先进的3D场景理解模型进行的评估验证了我们提出的上界,并揭示了感知饱和现象,表明当感知精度超过某一阈值后,其提升对导航成功率的边际收益递减。我们的发现表明,面向视觉语言导航的3D场景理解应偏离严格的像素级精度,优先关注导航相关的核心词汇和准确的边界框比例。

📊 核心分析

🎯 研究动机
- 当前**零样本视觉语言导航(Zero-shot VLN)** 系统通常集成预训练的**视觉-语言模型(Vision-Language Model, VLM)** 和**大语言模型(Large Language Model, LLM)**,但存在关键瓶颈 - 现有**3D感知模型(3D perception model)** 追求像素级精度,与具身导航的严格计算限制和实时效率要求直接冲突 - 该论文要量化**3D场景理解能力(3D scene understanding capability)** 对VLN性能的实际影响,并揭示感知精度的边际效用递减规律
🔧 核心方法
- 基于典型的**VLM-LLM框架(VLM-LLM framework)**,提出两个核心子系统的**统计成功率上界(statistical success rate upper bound)** - 对**慢速LLM规划器(slow LLM planner)**,上界依赖**拓扑映射语义(topological mapping semantics)**;对**快速反应式导航器(fast reactive navigator)**,上界利用**空间坐标(spatial coordinates)** 和**边界框(bounding boxes)** 执行LLM决策 - 使用**最新3D场景理解模型(state-of-the-art 3D scene understanding models)** 进行实验评估,验证所提上界的有效性
💡 核心创新
- **揭示感知饱和现象(perception saturation phenomenon)**:感知精度超过某一阈值后,对导航成功率的提升呈现收益递减 - **首次量化** 3D场景理解能力对VLN性能的直接影响,并通过理论界限和实验验证提供严格分析 - **提出范式转变**:3D场景理解应放弃严格像素级精度,优先关注**导航相关核心词汇(navigation-relevant core vocabularies)** 和**准确的边界框比例(accurate bounding box proportions)**
🏆 总体贡献
- 为**零样本视觉语言导航(Zero-shot VLN)** 领域提供了3D场景理解能力与导航性能之间关系的量化分析框架 - 通过**统计成功率上界(statistical success rate upper bound)** 和**感知饱和现象(perception saturation phenomenon)** 的发现,指导未来3D感知模型设计方向 - 提出从像素级精度向任务导向语义理解的**研究路线图(research roadmap)**,有望降低计算成本并提升导航实时性