SpaCeFormer：快速无提议开放词汇三维实例分割

📝 论文摘要

开放词汇3D实例分割是机器人与AR/VR领域的核心能力，但现有方法往往陷入此消彼长的困境：多阶段2D+3D流程需聚合基础模型输出，每场景耗时数百秒；而伪标签端到端方法则依赖碎片化掩码与外部区域建议。我们提出SpaCeFormer——一种免建议的空间曲线变换器，每场景仅需0.14秒，比多阶段2D+3D流程快2-3个数量级。我们同步构建了SpaCeFormer-3M数据集，这是目前最大的开放词汇3D实例分割数据集（涵盖7.4K个场景中的60.4万个实例，包含300万条多视角一致标注），通过多视角掩码聚类与多视角视觉语言模型标注构建，其掩码召回率较先前单视角流程提升21倍（IoU>0.5时达54.3% vs 2.5%）。SpaCeFormer融合空间窗口注意力与莫顿曲线序列化以获取空间连贯特征，并采用RoPE增强解码器直接从学习查询中预测实例掩码，无需外部建议。在ScanNet200数据集上实现11.1的零样本mAP，较先前最佳免建议方法提升2.8倍；在ScanNet++与Replica数据集上分别达到22.9与24.1 mAP，超越所有现有方法（包括使用多视角2D输入的方法）。

🎯 研究动机

该论文旨在解决开放词汇(open-vocabulary) 3D实例分割(3D instance segmentation)领域存在的效率与质量瓶颈问题。研究背景是：现有方法要么采用多阶段(multi-stage) 2D+3D流水线(pipeline)，处理每个场景需数百秒，速度极慢；要么采用伪标签(pseudo-labeled)端到端(end-to-end)方法，但依赖碎片化掩码(fragmented masks)和外部区域提议(external region proposals)，质量受限。

🔧 核心方法

论文提出了SpaCeFormer，一个无提议(proposal-free)的空间曲线变换器(space-curve transformer)。其核心方法包括： - 结合空间窗口注意力(spatial window attention)与莫顿曲线序列化(Morton-curve serialization)，以获取空间连贯的特征(spatially coherent features)。 - 使用RoPE增强的解码器(RoPE-enhanced decoder)，直接从学习到的查询(learned queries)预测实例掩码(instance masks)，无需外部提议。 - 同时构建了SpaCeFormer-3M数据集，通过多视角掩码聚类(multi-view mask clustering)和多视角视觉语言模型(VLM)标注(multi-view VLM captioning)生成，包含604K个实例(instances)的3.0M个多视角一致标注(multi-view-consistent captions)。

💡 核心创新

论文的核心创新点在于： 1. **架构创新**：首次提出无提议的“空间曲线变换器”，将空间窗口注意力与莫顿曲线序列化相结合，在保持空间连贯性的同时实现高效处理（0.14秒/场景，比多阶段方法快2-3个数量级）。 2. **方法创新**：采用RoPE增强的解码器直接从学习到的查询生成实例掩码，完全摆脱了对外部区域提议的依赖，简化了流程并提升了效率。 3. **数据创新**：构建了目前最大规模的开放词汇3D实例分割数据集SpaCeFormer-3M，通过创新的多视角掩码聚类与VLM标注流程，实现了比先前单视角流水线高21倍的掩码召回率(mask recall)（54.3% vs 2.5%）。

🏆 总体贡献

论文对该领域的整体贡献包括： - **提出高效新模型**：SpaCeFormer在速度上实现了2-3个数量级的提升，为机器人(robotics)和AR/VR应用提供了实时(real-time)或近实时的开放词汇3D实例分割能力。 - **提供大规模高质量数据集**：SpaCeFormer-3M数据集显著提升了训练数据的规模与质量，为后续研究提供了宝贵资源。 - **实现性能突破**：在ScanNet200上实现了11.1的零样本(zero-shot) mAP，比先前最佳无提议方法提升2.8倍；在ScanNet++和Replica数据集上也超越了所有先前方法（包括使用多视角2D输入的方法），证明了其有效性和优越性。

SpaCeFormer：快速无提议开放词汇三维实例分割
SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

📊 核心分析

SpaCeFormer：快速无提议开放词汇三维实例分割 SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

📊 核心分析

SpaCeFormer：快速无提议开放词汇三维实例分割
SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation