面向三维语义场景补全的稀疏感知体素注意力与前景调制

📝 论文摘要

单目语义场景补全（SSC）旨在从单张RGB图像重建完整的三维语义场景，为自动驾驶和机器人技术提供了一种经济高效的解决方案。然而，体素分布固有的不平衡性——超过93%的体素为空且前景类别稀少——带来了重大挑战。现有方法常过度关注无信息体素，且对长尾类别的泛化能力较差。为解决这些问题，我们提出了VoxSAMNet（体素稀疏感知调制网络），这是一个显式建模体素稀疏性与语义不平衡的统一框架。我们的方法引入：（1）特征精炼虚拟捷径模块，通过共享虚拟节点绕过空体素，同时利用可变形注意力优化被占据体素；（2）结合前景丢弃与文本引导图像滤波的前景调制策略，以缓解过拟合并增强类别相关特征。在公开基准数据集SemanticKITTI和SSCBench-KITTI-360上的大量实验表明，VoxSAMNet分别以18.2%和20.2%的mIoU分数达到最先进性能，超越了现有单目及立体基线方法。我们的研究结果凸显了稀疏感知与语义引导设计对实现高效精准三维场景补全的重要性，为未来研究提供了有前景的方向。

🎯 研究动机

该论文旨在解决单目语义场景补全(Semantic Scene Completion, SSC)任务中的两个关键挑战： - 体素(voxel)分布极度不平衡：超过93%的体素为空，且前景类别（如车辆、行人）样本稀少。 - 现有方法存在的问题：对无信息空体素进行冗余计算，以及对长尾类别(long-tailed categories)泛化能力差。

🔧 核心方法

论文提出了VoxSAMNet（Voxel Sparsity-Aware Modulation Network）统一框架，包含两个核心组件： - 用于特征精炼的虚拟捷径(Dummy Shortcut for Feature Refinement, DSFR)模块：通过一个共享的虚拟节点(dummy node)绕过空体素，同时使用可变形注意力(deformable attention)对占据体素进行特征精炼。 - 前景调制策略(Foreground Modulation Strategy)：结合前景丢弃(Foreground Dropout, FD)和文本引导图像滤波(Text-Guided Image Filter, TGIF)，以缓解过拟合(overfitting)并增强类别相关特征。

💡 核心创新

论文的核心创新点在于首次在单目SSC任务中，通过统一的框架显式地联合建模体素稀疏性(voxel sparsity)和语义不平衡(semantic imbalance)： - 提出了DSFR模块，创新性地引入“虚拟节点”来高效处理稀疏体素网格，避免了传统方法对空体素的无意义计算，同时利用可变形注意力灵活聚合重要区域的特征。 - 提出了结合数据增强（FD）和语义引导特征增强（TGIF）的前景调制策略，从数据和特征两个层面针对性地缓解长尾分布问题，而不仅仅是简单的重加权(re-weighting)或重采样(re-sampling)。 - 与现有工作相比，该方法不仅关注计算效率（通过稀疏感知），更强调语义引导，将类别语义信息（通过文本提示）主动注入到特征调制过程中，以提升对稀有类别的识别能力。

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了一个新颖的、稀疏感知且语义引导的VoxSAMNet框架，在公开基准数据集SemanticKITTI和SSCBench-KITTI-360上取得了最先进的(state-of-the-art)性能（mIoU分别达到18.2%和20.2%），超越了之前的单目和立体基线方法。 - 通过系统的实验验证了显式建模体素稀疏性和语义不平衡对于实现高效、准确的3D场景补全至关重要。 - 为未来的研究提供了一个有前景的方向，即如何将稀疏性先验和高级语义知识更有效地结合到3D视觉任务中。

面向三维语义场景补全的稀疏感知体素注意力与前景调制
Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion

📊 核心分析

面向三维语义场景补全的稀疏感知体素注意力与前景调制 Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion

📊 核心分析

面向三维语义场景补全的稀疏感知体素注意力与前景调制
Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion