- 解决**自主机器人探索(autonomous robotic exploration)** 中传统方法依赖简单几何启发式、缺乏上下文推理能力的问题
- 现有方法在未知和危险环境中表现不佳,难以充分利用环境语义信息做出智能决策
- 研究背景:长期存在的挑战,需要更强大的高层推理来指导探索策略
- 目标:利用**视觉-语言模型(VLM)** 的先进推理能力替代纯几何决策
- 提出**VLM引导的自主探索管线(VLM-guided exploration pipeline)**,VLM负责高层策略决策,低层控制栈执行具体运动
- 在决策点生成**多模态提示(multimodal prompt)**,包含当前地图和潜在路径(前沿)的视觉图像
- VLM分析该提示并选择最有希望的前沿,替代传统几何启发式(如距离或信息增益)
- 系统轻量、无需训练,可迁移至任何配备标准传感器和网络连接的机器人
- **首创性**:首次将**视觉-语言模型(VLM)** 用于自主探索中的前沿选择,实现**上下文空间推理(contextual spatial reasoning)**
- **方法简化**:无需微调或训练,直接利用预训练VLM进行零样本决策
- **性能提升**:相比现有方法,在六个室内环境中地图覆盖率最高提升24%
- **通用性**:轻量级且易于迁移,不依赖特定硬件或复杂训练流程
- 为自主探索领域提供一种**基于VLM决策的新范式(VLM-based decision paradigm)**,将高层语义推理与底层控制相结合
- 在模拟实验中验证了方法的有效性,地图覆盖率显著优于基线方法
- 提出一种**训练无关(train-free)**、可即插即用的探索框架,降低实际部署门槛
- 推动**视觉-语言模型(VLM)** 在机器人空间推理和探索任务中的应用