- 现有**未知3D室内环境探索** 方法要么只注重覆盖率(如FALCON),要么仅依赖语义线索,缺乏两者平衡
- 语言引导的探索需要同时实现**开放词汇语义发现** 与**高效全局覆盖**,但现有系统难以兼顾
- 研究背景:随着**视觉-语言模型(VLM)** 如CLIP的发展,如何将其融入机器人探索决策成为关键挑战
- 基于**FALCON体积探索器(volumetric explorer)**,集成**CLIP** 实现开放词汇语义感知
- 提出四个关键组件:**对象中心嵌入存储(object-centric embedding storage)**、**时间缓存(temporal cache)** (将近期观察投影到自由-未知边界)、**对象前沿(object frontiers)** (高相似性检测区域)、**统一语义-几何规划成本(unified semantic-geometric planning cost)**
- 成本函数通过**限定语义重加权影响(bounding semantic reweighting influence)**,确保前沿优先选择不牺牲总覆盖率
- **首次** 在体积探索框架中整合**CLIP** 实现**开放词汇(open-vocabulary)** 对象发现,同时保持覆盖率导向行为
- 提出**语义-几何统一成本函数**,巧妙平衡语义线索与几何覆盖,避免传统语义方法导致的覆盖率下降
- 相比**FTU(Finding Things in the Unknown)** 方法,探索速度提升**9.0~25.9倍** (平均13.7倍),且体积吞吐量显著更高
- 在真实无人机平台上部署,验证了**对象发现能力优于FALCON**,尽管FALCON探索轨迹更短
- 提出**SAGE系统**,为语言条件3D室内映射提供了一种**语义感知与覆盖率兼顾** 的新范式
- 在**Matterport3D模拟** 和**真实四旋翼飞行** 中均证明有效性,对象发现性能优于基线
- 实现**高效探索**:相比FTU大幅缩短探索时间,同时保持**开放词汇语义定位** 能力
- 为**视觉-语言模型(VLM)** 在无人机自主探索中的应用提供了可行方案与实验基准