FUS3DMaps：通过体素层次和实例层次层的3D融合实现可扩展且准确的开词表语义映射

📝 论文摘要

开放词汇语义映射使机器人能够在无需预定义类别集的情况下对先前未见过的概念进行空间定位。当前的无训练方法通常通过多视图融合将语义嵌入集成到3D地图中，要么通过分割视图并编码分割区域的图像块在实例层面进行融合，要么直接将图像块嵌入投影到密集语义地图中。后者通过操作完整的未裁剪图像帧避免了分割和二维到三维实例关联的问题，但现有方法在可扩展性方面仍存在局限。我们提出FUS3DMaps，一种在线双层语义映射方法，它在一个共享体素地图中同时维护密集层和实例级开放词汇层。这种设计能够对层嵌入进行进一步的体素级语义融合，结合了两种语义映射方法的互补优势。我们发现，所提出的语义跨层融合方法同时提高了实例级层和密集层的质量，同时在空间滑动窗口内限制密集层和跨层融合操作，从而实现了可扩展且高精度的实例级地图。在已有的3D语义分割基准以及一系列大规模场景上的实验表明，FUS3DMaps能够在多层建筑尺度上实现精确的开放词汇语义映射。附加材料与代码将提供：https://githanonymous.github.io/FUS3DMaps/。

🎯 研究动机

- 现有无训练(Training-free)开放词汇语义映射方法可扩展性有限，无法高效处理大规模场景 - 实例级方法需要分割和2D到3D实例关联，计算复杂；密集地图方法虽避免分割但扩展性差 - 缺乏一种同时利用密集层和实例层互补优势的在线映射框架 - 目标是在多楼层建筑等大规模环境中实现高精度的开放词汇语义映射

🔧 核心方法

- 提出**FUS3DMaps**，一种在线双图层语义映射方法，在共享体素地图中同时维护**密集层(Dense layer)** 和**实例级层(Instance-level layer)** - 设计跨图层体素级语义融合(Cross-layer voxel-level semantic fusion)机制，将两个图层的嵌入进行融合，结合各自的互补优势 - 采用**空间滑动窗口(Spatial sliding window)** 限制密集层和跨融合的处理范围，仅对窗口内的体素进行密集更新，实现可扩展性 - 在滑动窗口内联合推理，提升实例级层的准确性和密集层的质量

💡 核心创新

- **首创双图层架构**：首次联合维护密集开放词汇层和实例级开放词汇层，并在体素层面进行语义融合，而非单独使用一种 - **可扩展性设计**：通过滑动窗口限制密集融合范围，避免了在全地图上进行密集嵌入存储和计算，实现大规模场景下的在线映射 - **互补增强**：跨层融合不仅改善了实例级层的精度，还反向提升了密集层的语义质量，形成相互增强的闭环 - **无训练(Zero-shot)能力**：无需额外训练，直接利用预训练视觉-语言模型(VLM)嵌入，适应新类别

🏆 总体贡献

- 在3D语义分割基准和大规模多楼层建筑场景上达到**开放词汇语义映射(Open-vocabulary semantic mapping)** 的先进性能 - 提供了在线、可扩展的映射框架，支持机器人实时构建理解未知环境 - 开源代码和补充材料，促进社区复现和后续研究 - 为双图层语义融合范式在3D场景理解领域奠定了新的方向，平衡了精度与效率

FUS3DMaps：通过体素层次和实例层次层的3D融合实现可扩展且准确的开词表语义映射
FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers

📊 核心分析

FUS3DMaps：通过体素层次和实例层次层的3D融合实现可扩展且准确的开词表语义映射 FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers

📊 核心分析

FUS3DMaps：通过体素层次和实例层次层的3D融合实现可扩展且准确的开词表语义映射
FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers