← 返回论文列表

面向语言条件三维室内建图的语义感知引导无人机探索
Semantic-Aware Guided Drone Exploration for Language-Conditioned 3D Indoor Mapping

作者: Nitin Vegesna, Avideh Zakhor
arXiv: 2605.23160v1
分类: cs.RO, cs.CV
📝 论文摘要
我们提出了语义感知引导探索(SAGE)系统,用于未知3D室内环境中的开放词汇探索。该系统在保留覆盖导向行为的同时,允许语义线索重新调整前沿选择的优先级。基于FALCON体积探索器,SAGE通过四个关键组件集成了对比语言-图像预训练(CLIP):以对象为中心的嵌入存储、将最近观测投影到自由-未知边界的时间缓存、用于高相似度检测的对象前沿,以及统一的语义-几何规划成本。该成本函数限制了语义重加权的影响,确保在不牺牲总覆盖的前提下优先处理前沿。在基于Matterport3D的仿真中,SAGE在地图-查询对上的对象发现方面优于FALCON和纯语义消融版本。与“未知环境中的物体发现”(FTU)相比,SAGE在九个共享地图-查询对上的探索速度提升了9.0至25.9倍,平均加速比达到13.7。此外,SAGE的体积吞吐量显著高于FTU。最后,我们在一架Modal AI Starling 2四旋翼无人机上部署SAGE,在两种环境中完成了五次真实飞行实验,其中机载传感器和规划模块负责感知与规划,而CLIP推理在机外完成。通过比较SAGE与FALCON,我们发现尽管FALCON实现了更快的探索速度和更短的建图轨迹,但SAGE在对象发现方面表现更优。

📊 核心分析

🎯 研究动机
- 现有**未知3D室内环境探索** 方法要么只注重覆盖率(如FALCON),要么仅依赖语义线索,缺乏两者平衡 - 语言引导的探索需要同时实现**开放词汇语义发现** 与**高效全局覆盖**,但现有系统难以兼顾 - 研究背景:随着**视觉-语言模型(VLM)** 如CLIP的发展,如何将其融入机器人探索决策成为关键挑战
🔧 核心方法
- 基于**FALCON体积探索器(volumetric explorer)**,集成**CLIP** 实现开放词汇语义感知 - 提出四个关键组件:**对象中心嵌入存储(object-centric embedding storage)**、**时间缓存(temporal cache)** (将近期观察投影到自由-未知边界)、**对象前沿(object frontiers)** (高相似性检测区域)、**统一语义-几何规划成本(unified semantic-geometric planning cost)** - 成本函数通过**限定语义重加权影响(bounding semantic reweighting influence)**,确保前沿优先选择不牺牲总覆盖率
💡 核心创新
- **首次** 在体积探索框架中整合**CLIP** 实现**开放词汇(open-vocabulary)** 对象发现,同时保持覆盖率导向行为 - 提出**语义-几何统一成本函数**,巧妙平衡语义线索与几何覆盖,避免传统语义方法导致的覆盖率下降 - 相比**FTU(Finding Things in the Unknown)** 方法,探索速度提升**9.0~25.9倍** (平均13.7倍),且体积吞吐量显著更高 - 在真实无人机平台上部署,验证了**对象发现能力优于FALCON**,尽管FALCON探索轨迹更短
🏆 总体贡献
- 提出**SAGE系统**,为语言条件3D室内映射提供了一种**语义感知与覆盖率兼顾** 的新范式 - 在**Matterport3D模拟** 和**真实四旋翼飞行** 中均证明有效性,对象发现性能优于基线 - 实现**高效探索**:相比FTU大幅缩短探索时间,同时保持**开放词汇语义定位** 能力 - 为**视觉-语言模型(VLM)** 在无人机自主探索中的应用提供了可行方案与实验基准