该论文旨在解决开放词汇(open-vocabulary)三维(3D)场景理解中的关键挑战:
- 现有方法难以同时获得语言对齐(language-aligned)、像素级(pixel-wise)空间精确且可扩展至三维(3D)空间的语义表示(semantic representation)。
- 将密集的像素级语义传播到三维(3D)空间通常会产生大量冗余(redundancy),导致大规模场景中存储和查询效率低下。
论文提出了一个名为PLAF的像素级语言对齐特征提取(Pixel-wise Language-Aligned Feature extraction)框架:
- 首先,在二维(2D)图像中提取密集且精确的、与语言对齐的语义特征,不牺牲开放词汇表达能力。
- 在此基础上,设计了一种高效的语义存储和查询方案(semantic storage and querying scheme),旨在显著减少二维(2D)和三维(3D)域中的冗余。
论文的核心创新点在于:
- 提出了一个统一的框架,首次在二维(2D)层面实现了密集、像素级且与语言对齐的特征提取,为后续三维(3D)理解提供了高质量的语义基础。
- 与现有工作相比,其独特之处在于:1)解决了语言对齐与像素级空间精度在开放词汇场景下的联合优化问题;2)专门设计了跨二维(2D)/三维(3D)域的高效去冗余存储与查询机制,直接针对大规模三维(3D)场景应用中的效率瓶颈。
论文对该领域的总体贡献是:
- 提供了一个强大的语义基础框架(PLAF),能够支持准确且高效的开放词汇三维(3D)场景理解。
- 通过实验验证了该框架的有效性,其代码已开源,促进了该领域的研究和应用发展。