UnsOcc：基于渲染融合的非结构化场景三维语义占据预测

📝 论文摘要

非结构化场景给自动驾驶带来了独特挑战，不规则障碍物与稀疏场景布局削弱了3D目标检测等传统感知方法的有效性。3D语义占用预测通过为3D空间中的单个体素分配语义标签，提供了密集的空间表征能力，因此已成为研究热点。然而，将3D语义占用预测直接应用于非结构化场景仍然存在困难，因为场景稀疏性阻碍了有效的跨模态融合，而此类场景中更严重的长尾分布进一步降低了预测性能。为验证方法的有效性，我们构建了从露天矿采集的非结构化场景专用数据集。基于此，我们提出UnsOcc——一种多模态3D语义占用预测框架，旨在提升非结构化环境下的鲁棒性。其核心是引入基于渲染的融合模块RenderFusion，通过双向渲染监督增强跨模态特征对齐。此外，我们提出GSRefinement，一种基于高斯泼溅的细节感知辅助监督方法，将稀疏的3D占用预测投影到密集的2D语义分割图，从而实现对长尾类别的有效监督。在露天矿数据集和nuScenes数据集上的大量实验表明，我们的方法显著优于现有最优方法。

🎯 研究动机

- 非结构化场景（如露天矿）中不规则障碍物和稀疏布局使传统**3D目标检测(3D object detection)** 效果不佳，需要更鲁棒的感知方法 - **3D语义占用预测(3D semantic occupancy prediction)** 虽能提供密集空间表示，但在非结构化场景中场景稀疏导致跨模态融合困难，且**长尾分布(long-tail distribution)** 进一步降低预测性能

🔧 核心方法

- 提出**UnsOcc** 多模态3D语义占用预测框架，专为非结构化场景设计 - 核心模块**RenderFusion**：基于渲染的融合模块，通过**双向渲染监督(bidirectional rendering supervision)** 增强跨模态特征对齐 - 辅助监督模块**GSRefinement**：基于**高斯溅射(Gaussian Splatting)** 将稀疏3D占用预测投影为密集2D语义分割图，实现长尾类别的有效监督 - 构建了专用的露天矿非结构化场景数据集用于验证

💡 核心创新

- **首创性**：提出**RenderFusion** 实现双向渲染监督的跨模态对齐，解决了非结构化场景中稀疏布局下的融合难题 - **方法创新**：利用**GSRefinement** 将高斯溅射引入3D语义占用，通过2D投影监督缓解**长尾分布(long-tail distribution)** 问题 - **数据贡献**：首次构建露天矿非结构化场景的专用数据集，填补该领域空白

🏆 总体贡献

- 为**非结构化场景(non-structured scene)** 的3D语义占用预测提供了鲁棒的新范式 - 在露天矿数据集和公开**nuScenes** 数据集上均达到**SOTA(state-of-the-art)** 性能 - 所提框架模块化设计，可推广至其他稀疏场景的感知任务

UnsOcc：基于渲染融合的非结构化场景三维语义占据预测
UnsOcc：基于渲染融合的非结构化场景三维语义占据预测

📊 核心分析

UnsOcc：基于渲染融合的非结构化场景三维语义占据预测 UnsOcc：基于渲染融合的非结构化场景三维语义占据预测

📊 核心分析

UnsOcc：基于渲染融合的非结构化场景三维语义占据预测
UnsOcc：基于渲染融合的非结构化场景三维语义占据预测