- 当前**零样本视觉语言导航(Zero-shot VLN)** 系统通常集成预训练的**视觉-语言模型(Vision-Language Model, VLM)** 和**大语言模型(Large Language Model, LLM)**,但存在关键瓶颈
- 现有**3D感知模型(3D perception model)** 追求像素级精度,与具身导航的严格计算限制和实时效率要求直接冲突
- 该论文要量化**3D场景理解能力(3D scene understanding capability)** 对VLN性能的实际影响,并揭示感知精度的边际效用递减规律
- 基于典型的**VLM-LLM框架(VLM-LLM framework)**,提出两个核心子系统的**统计成功率上界(statistical success rate upper bound)**
- 对**慢速LLM规划器(slow LLM planner)**,上界依赖**拓扑映射语义(topological mapping semantics)**;对**快速反应式导航器(fast reactive navigator)**,上界利用**空间坐标(spatial coordinates)** 和**边界框(bounding boxes)** 执行LLM决策
- 使用**最新3D场景理解模型(state-of-the-art 3D scene understanding models)** 进行实验评估,验证所提上界的有效性
- **揭示感知饱和现象(perception saturation phenomenon)**:感知精度超过某一阈值后,对导航成功率的提升呈现收益递减
- **首次量化** 3D场景理解能力对VLN性能的直接影响,并通过理论界限和实验验证提供严格分析
- **提出范式转变**:3D场景理解应放弃严格像素级精度,优先关注**导航相关核心词汇(navigation-relevant core vocabularies)** 和**准确的边界框比例(accurate bounding box proportions)**
- 为**零样本视觉语言导航(Zero-shot VLN)** 领域提供了3D场景理解能力与导航性能之间关系的量化分析框架
- 通过**统计成功率上界(statistical success rate upper bound)** 和**感知饱和现象(perception saturation phenomenon)** 的发现,指导未来3D感知模型设计方向
- 提出从像素级精度向任务导向语义理解的**研究路线图(research roadmap)**,有望降低计算成本并提升导航实时性