← 返回论文列表

UnsOcc:基于渲染融合的非结构化场景三维语义占据预测
UnsOcc:基于渲染融合的非结构化场景三维语义占据预测

作者: Ye Wu, Ruiqi Song, Baiyong Ding 等6人
arXiv: 2606.03581v1
分类: cs.CV, cs.RO
📝 论文摘要
非结构化场景给自动驾驶带来了独特挑战,不规则障碍物与稀疏场景布局削弱了3D目标检测等传统感知方法的有效性。3D语义占用预测通过为3D空间中的单个体素分配语义标签,提供了密集的空间表征能力,因此已成为研究热点。然而,将3D语义占用预测直接应用于非结构化场景仍然存在困难,因为场景稀疏性阻碍了有效的跨模态融合,而此类场景中更严重的长尾分布进一步降低了预测性能。为验证方法的有效性,我们构建了从露天矿采集的非结构化场景专用数据集。基于此,我们提出UnsOcc——一种多模态3D语义占用预测框架,旨在提升非结构化环境下的鲁棒性。其核心是引入基于渲染的融合模块RenderFusion,通过双向渲染监督增强跨模态特征对齐。此外,我们提出GSRefinement,一种基于高斯泼溅的细节感知辅助监督方法,将稀疏的3D占用预测投影到密集的2D语义分割图,从而实现对长尾类别的有效监督。在露天矿数据集和nuScenes数据集上的大量实验表明,我们的方法显著优于现有最优方法。

📊 核心分析

🎯 研究动机
- 非结构化场景(如露天矿)中不规则障碍物和稀疏布局使传统**3D目标检测(3D object detection)** 效果不佳,需要更鲁棒的感知方法 - **3D语义占用预测(3D semantic occupancy prediction)** 虽能提供密集空间表示,但在非结构化场景中场景稀疏导致跨模态融合困难,且**长尾分布(long-tail distribution)** 进一步降低预测性能
🔧 核心方法
- 提出**UnsOcc** 多模态3D语义占用预测框架,专为非结构化场景设计 - 核心模块**RenderFusion**:基于渲染的融合模块,通过**双向渲染监督(bidirectional rendering supervision)** 增强跨模态特征对齐 - 辅助监督模块**GSRefinement**:基于**高斯溅射(Gaussian Splatting)** 将稀疏3D占用预测投影为密集2D语义分割图,实现长尾类别的有效监督 - 构建了专用的露天矿非结构化场景数据集用于验证
💡 核心创新
- **首创性**:提出**RenderFusion** 实现双向渲染监督的跨模态对齐,解决了非结构化场景中稀疏布局下的融合难题 - **方法创新**:利用**GSRefinement** 将高斯溅射引入3D语义占用,通过2D投影监督缓解**长尾分布(long-tail distribution)** 问题 - **数据贡献**:首次构建露天矿非结构化场景的专用数据集,填补该领域空白
🏆 总体贡献
- 为**非结构化场景(non-structured scene)** 的3D语义占用预测提供了鲁棒的新范式 - 在露天矿数据集和公开**nuScenes** 数据集上均达到**SOTA(state-of-the-art)** 性能 - 所提框架模块化设计,可推广至其他稀疏场景的感知任务