- 现有无训练(Training-free)开放词汇语义映射方法可扩展性有限,无法高效处理大规模场景
- 实例级方法需要分割和2D到3D实例关联,计算复杂;密集地图方法虽避免分割但扩展性差
- 缺乏一种同时利用密集层和实例层互补优势的在线映射框架
- 目标是在多楼层建筑等大规模环境中实现高精度的开放词汇语义映射
- 提出**FUS3DMaps**,一种在线双图层语义映射方法,在共享体素地图中同时维护**密集层(Dense layer)** 和**实例级层(Instance-level layer)**
- 设计跨图层体素级语义融合(Cross-layer voxel-level semantic fusion)机制,将两个图层的嵌入进行融合,结合各自的互补优势
- 采用**空间滑动窗口(Spatial sliding window)** 限制密集层和跨融合的处理范围,仅对窗口内的体素进行密集更新,实现可扩展性
- 在滑动窗口内联合推理,提升实例级层的准确性和密集层的质量
- **首创双图层架构**:首次联合维护密集开放词汇层和实例级开放词汇层,并在体素层面进行语义融合,而非单独使用一种
- **可扩展性设计**:通过滑动窗口限制密集融合范围,避免了在全地图上进行密集嵌入存储和计算,实现大规模场景下的在线映射
- **互补增强**:跨层融合不仅改善了实例级层的精度,还反向提升了密集层的语义质量,形成相互增强的闭环
- **无训练(Zero-shot)能力**:无需额外训练,直接利用预训练视觉-语言模型(VLM)嵌入,适应新类别
- 在3D语义分割基准和大规模多楼层建筑场景上达到**开放词汇语义映射(Open-vocabulary semantic mapping)** 的先进性能
- 提供了在线、可扩展的映射框架,支持机器人实时构建理解未知环境
- 开源代码和补充材料,促进社区复现和后续研究
- 为双图层语义融合范式在3D场景理解领域奠定了新的方向,平衡了精度与效率