面向语言条件三维室内建图的语义感知引导无人机探索

📝 论文摘要

我们提出了语义感知引导探索（SAGE）系统，用于未知3D室内环境中的开放词汇探索。该系统在保留覆盖导向行为的同时，允许语义线索重新调整前沿选择的优先级。基于FALCON体积探索器，SAGE通过四个关键组件集成了对比语言-图像预训练（CLIP）：以对象为中心的嵌入存储、将最近观测投影到自由-未知边界的时间缓存、用于高相似度检测的对象前沿，以及统一的语义-几何规划成本。该成本函数限制了语义重加权的影响，确保在不牺牲总覆盖的前提下优先处理前沿。在基于Matterport3D的仿真中，SAGE在地图-查询对上的对象发现方面优于FALCON和纯语义消融版本。与“未知环境中的物体发现”（FTU）相比，SAGE在九个共享地图-查询对上的探索速度提升了9.0至25.9倍，平均加速比达到13.7。此外，SAGE的体积吞吐量显著高于FTU。最后，我们在一架Modal AI Starling 2四旋翼无人机上部署SAGE，在两种环境中完成了五次真实飞行实验，其中机载传感器和规划模块负责感知与规划，而CLIP推理在机外完成。通过比较SAGE与FALCON，我们发现尽管FALCON实现了更快的探索速度和更短的建图轨迹，但SAGE在对象发现方面表现更优。

🎯 研究动机

- 现有**未知3D室内环境探索** 方法要么只注重覆盖率（如FALCON），要么仅依赖语义线索，缺乏两者平衡 - 语言引导的探索需要同时实现**开放词汇语义发现** 与**高效全局覆盖**，但现有系统难以兼顾 - 研究背景：随着**视觉-语言模型(VLM)** 如CLIP的发展，如何将其融入机器人探索决策成为关键挑战

🔧 核心方法

- 基于**FALCON体积探索器(volumetric explorer)**，集成**CLIP** 实现开放词汇语义感知 - 提出四个关键组件：**对象中心嵌入存储(object-centric embedding storage)**、**时间缓存(temporal cache)** （将近期观察投影到自由-未知边界）、**对象前沿(object frontiers)** （高相似性检测区域）、**统一语义-几何规划成本(unified semantic-geometric planning cost)** - 成本函数通过**限定语义重加权影响(bounding semantic reweighting influence)**，确保前沿优先选择不牺牲总覆盖率

💡 核心创新

- **首次** 在体积探索框架中整合**CLIP** 实现**开放词汇(open-vocabulary)** 对象发现，同时保持覆盖率导向行为 - 提出**语义-几何统一成本函数**，巧妙平衡语义线索与几何覆盖，避免传统语义方法导致的覆盖率下降 - 相比**FTU(Finding Things in the Unknown)** 方法，探索速度提升**9.0~25.9倍** （平均13.7倍），且体积吞吐量显著更高 - 在真实无人机平台上部署，验证了**对象发现能力优于FALCON**，尽管FALCON探索轨迹更短

🏆 总体贡献

- 提出**SAGE系统**，为语言条件3D室内映射提供了一种**语义感知与覆盖率兼顾** 的新范式 - 在**Matterport3D模拟** 和**真实四旋翼飞行** 中均证明有效性，对象发现性能优于基线 - 实现**高效探索**：相比FTU大幅缩短探索时间，同时保持**开放词汇语义定位** 能力 - 为**视觉-语言模型(VLM)** 在无人机自主探索中的应用提供了可行方案与实验基准

面向语言条件三维室内建图的语义感知引导无人机探索
Semantic-Aware Guided Drone Exploration for Language-Conditioned 3D Indoor Mapping

📊 核心分析

面向语言条件三维室内建图的语义感知引导无人机探索 Semantic-Aware Guided Drone Exploration for Language-Conditioned 3D Indoor Mapping

📊 核心分析

面向语言条件三维室内建图的语义感知引导无人机探索
Semantic-Aware Guided Drone Exploration for Language-Conditioned 3D Indoor Mapping