- 非结构化场景(如露天矿)中不规则障碍物和稀疏布局使传统**3D目标检测(3D object detection)** 效果不佳,需要更鲁棒的感知方法
- **3D语义占用预测(3D semantic occupancy prediction)** 虽能提供密集空间表示,但在非结构化场景中场景稀疏导致跨模态融合困难,且**长尾分布(long-tail distribution)** 进一步降低预测性能
- 提出**UnsOcc** 多模态3D语义占用预测框架,专为非结构化场景设计
- 核心模块**RenderFusion**:基于渲染的融合模块,通过**双向渲染监督(bidirectional rendering supervision)** 增强跨模态特征对齐
- 辅助监督模块**GSRefinement**:基于**高斯溅射(Gaussian Splatting)** 将稀疏3D占用预测投影为密集2D语义分割图,实现长尾类别的有效监督
- 构建了专用的露天矿非结构化场景数据集用于验证
- **首创性**:提出**RenderFusion** 实现双向渲染监督的跨模态对齐,解决了非结构化场景中稀疏布局下的融合难题
- **方法创新**:利用**GSRefinement** 将高斯溅射引入3D语义占用,通过2D投影监督缓解**长尾分布(long-tail distribution)** 问题
- **数据贡献**:首次构建露天矿非结构化场景的专用数据集,填补该领域空白
- 为**非结构化场景(non-structured scene)** 的3D语义占用预测提供了鲁棒的新范式
- 在露天矿数据集和公开**nuScenes** 数据集上均达到**SOTA(state-of-the-art)** 性能
- 所提框架模块化设计,可推广至其他稀疏场景的感知任务