该论文旨在解决开放词汇(open-vocabulary) 3D实例分割(3D instance segmentation)领域存在的效率与质量瓶颈问题。研究背景是:现有方法要么采用多阶段(multi-stage) 2D+3D流水线(pipeline),处理每个场景需数百秒,速度极慢;要么采用伪标签(pseudo-labeled)端到端(end-to-end)方法,但依赖碎片化掩码(fragmented masks)和外部区域提议(external region proposals),质量受限。
论文提出了SpaCeFormer,一个无提议(proposal-free)的空间曲线变换器(space-curve transformer)。其核心方法包括:
- 结合空间窗口注意力(spatial window attention)与莫顿曲线序列化(Morton-curve serialization),以获取空间连贯的特征(spatially coherent features)。
- 使用RoPE增强的解码器(RoPE-enhanced decoder),直接从学习到的查询(learned queries)预测实例掩码(instance masks),无需外部提议。
- 同时构建了SpaCeFormer-3M数据集,通过多视角掩码聚类(multi-view mask clustering)和多视角视觉语言模型(VLM)标注(multi-view VLM captioning)生成,包含604K个实例(instances)的3.0M个多视角一致标注(multi-view-consistent captions)。
论文的核心创新点在于:
1. **架构创新**:首次提出无提议的“空间曲线变换器”,将空间窗口注意力与莫顿曲线序列化相结合,在保持空间连贯性的同时实现高效处理(0.14秒/场景,比多阶段方法快2-3个数量级)。
2. **方法创新**:采用RoPE增强的解码器直接从学习到的查询生成实例掩码,完全摆脱了对外部区域提议的依赖,简化了流程并提升了效率。
3. **数据创新**:构建了目前最大规模的开放词汇3D实例分割数据集SpaCeFormer-3M,通过创新的多视角掩码聚类与VLM标注流程,实现了比先前单视角流水线高21倍的掩码召回率(mask recall)(54.3% vs 2.5%)。
论文对该领域的整体贡献包括:
- **提出高效新模型**:SpaCeFormer在速度上实现了2-3个数量级的提升,为机器人(robotics)和AR/VR应用提供了实时(real-time)或近实时的开放词汇3D实例分割能力。
- **提供大规模高质量数据集**:SpaCeFormer-3M数据集显著提升了训练数据的规模与质量,为后续研究提供了宝贵资源。
- **实现性能突破**:在ScanNet200上实现了11.1的零样本(zero-shot) mAP,比先前最佳无提议方法提升2.8倍;在ScanNet++和Replica数据集上也超越了所有先前方法(包括使用多视角2D输入的方法),证明了其有效性和优越性。