该论文旨在解决单目语义场景补全(Semantic Scene Completion, SSC)任务中的两个关键挑战:
- 体素(voxel)分布极度不平衡:超过93%的体素为空,且前景类别(如车辆、行人)样本稀少。
- 现有方法存在的问题:对无信息空体素进行冗余计算,以及对长尾类别(long-tailed categories)泛化能力差。
论文提出了VoxSAMNet(Voxel Sparsity-Aware Modulation Network)统一框架,包含两个核心组件:
- 用于特征精炼的虚拟捷径(Dummy Shortcut for Feature Refinement, DSFR)模块:通过一个共享的虚拟节点(dummy node)绕过空体素,同时使用可变形注意力(deformable attention)对占据体素进行特征精炼。
- 前景调制策略(Foreground Modulation Strategy):结合前景丢弃(Foreground Dropout, FD)和文本引导图像滤波(Text-Guided Image Filter, TGIF),以缓解过拟合(overfitting)并增强类别相关特征。
论文的核心创新点在于首次在单目SSC任务中,通过统一的框架显式地联合建模体素稀疏性(voxel sparsity)和语义不平衡(semantic imbalance):
- 提出了DSFR模块,创新性地引入“虚拟节点”来高效处理稀疏体素网格,避免了传统方法对空体素的无意义计算,同时利用可变形注意力灵活聚合重要区域的特征。
- 提出了结合数据增强(FD)和语义引导特征增强(TGIF)的前景调制策略,从数据和特征两个层面针对性地缓解长尾分布问题,而不仅仅是简单的重加权(re-weighting)或重采样(re-sampling)。
- 与现有工作相比,该方法不仅关注计算效率(通过稀疏感知),更强调语义引导,将类别语义信息(通过文本提示)主动注入到特征调制过程中,以提升对稀有类别的识别能力。
论文对该领域的整体贡献包括:
- 提出了一个新颖的、稀疏感知且语义引导的VoxSAMNet框架,在公开基准数据集SemanticKITTI和SSCBench-KITTI-360上取得了最先进的(state-of-the-art)性能(mIoU分别达到18.2%和20.2%),超越了之前的单目和立体基线方法。
- 通过系统的实验验证了显式建模体素稀疏性和语义不平衡对于实现高效、准确的3D场景补全至关重要。
- 为未来的研究提供了一个有前景的方向,即如何将稀疏性先验和高级语义知识更有效地结合到3D视觉任务中。