← 返回论文列表

SpaCeFormer:快速无提议开放词汇三维实例分割
SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

作者: Chris Choy, Junha Lee, Chunghyun Park 等5人
arXiv: 2604.20395v1
分类: cs.CV, cs.RO
📝 论文摘要
开放词汇3D实例分割是机器人与AR/VR领域的核心能力,但现有方法往往陷入此消彼长的困境:多阶段2D+3D流程需聚合基础模型输出,每场景耗时数百秒;而伪标签端到端方法则依赖碎片化掩码与外部区域建议。我们提出SpaCeFormer——一种免建议的空间曲线变换器,每场景仅需0.14秒,比多阶段2D+3D流程快2-3个数量级。我们同步构建了SpaCeFormer-3M数据集,这是目前最大的开放词汇3D实例分割数据集(涵盖7.4K个场景中的60.4万个实例,包含300万条多视角一致标注),通过多视角掩码聚类与多视角视觉语言模型标注构建,其掩码召回率较先前单视角流程提升21倍(IoU>0.5时达54.3% vs 2.5%)。SpaCeFormer融合空间窗口注意力与莫顿曲线序列化以获取空间连贯特征,并采用RoPE增强解码器直接从学习查询中预测实例掩码,无需外部建议。在ScanNet200数据集上实现11.1的零样本mAP,较先前最佳免建议方法提升2.8倍;在ScanNet++与Replica数据集上分别达到22.9与24.1 mAP,超越所有现有方法(包括使用多视角2D输入的方法)。

📊 核心分析

🎯 研究动机
该论文旨在解决开放词汇(open-vocabulary) 3D实例分割(3D instance segmentation)领域存在的效率与质量瓶颈问题。研究背景是:现有方法要么采用多阶段(multi-stage) 2D+3D流水线(pipeline),处理每个场景需数百秒,速度极慢;要么采用伪标签(pseudo-labeled)端到端(end-to-end)方法,但依赖碎片化掩码(fragmented masks)和外部区域提议(external region proposals),质量受限。
🔧 核心方法
论文提出了SpaCeFormer,一个无提议(proposal-free)的空间曲线变换器(space-curve transformer)。其核心方法包括: - 结合空间窗口注意力(spatial window attention)与莫顿曲线序列化(Morton-curve serialization),以获取空间连贯的特征(spatially coherent features)。 - 使用RoPE增强的解码器(RoPE-enhanced decoder),直接从学习到的查询(learned queries)预测实例掩码(instance masks),无需外部提议。 - 同时构建了SpaCeFormer-3M数据集,通过多视角掩码聚类(multi-view mask clustering)和多视角视觉语言模型(VLM)标注(multi-view VLM captioning)生成,包含604K个实例(instances)的3.0M个多视角一致标注(multi-view-consistent captions)。
💡 核心创新
论文的核心创新点在于: 1. **架构创新**:首次提出无提议的“空间曲线变换器”,将空间窗口注意力与莫顿曲线序列化相结合,在保持空间连贯性的同时实现高效处理(0.14秒/场景,比多阶段方法快2-3个数量级)。 2. **方法创新**:采用RoPE增强的解码器直接从学习到的查询生成实例掩码,完全摆脱了对外部区域提议的依赖,简化了流程并提升了效率。 3. **数据创新**:构建了目前最大规模的开放词汇3D实例分割数据集SpaCeFormer-3M,通过创新的多视角掩码聚类与VLM标注流程,实现了比先前单视角流水线高21倍的掩码召回率(mask recall)(54.3% vs 2.5%)。
🏆 总体贡献
论文对该领域的整体贡献包括: - **提出高效新模型**:SpaCeFormer在速度上实现了2-3个数量级的提升,为机器人(robotics)和AR/VR应用提供了实时(real-time)或近实时的开放词汇3D实例分割能力。 - **提供大规模高质量数据集**:SpaCeFormer-3M数据集显著提升了训练数据的规模与质量,为后续研究提供了宝贵资源。 - **实现性能突破**:在ScanNet200上实现了11.1的零样本(zero-shot) mAP,比先前最佳无提议方法提升2.8倍;在ScanNet++和Replica数据集上也超越了所有先前方法(包括使用多视角2D输入的方法),证明了其有效性和优越性。