← 返回论文列表

DGSG-Mind:用于长期场景理解与锚定的动态3D高斯场景图
DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

作者: Luzhou Ge, Xiangyu Zhu, Jinyan Liu 等4人
arXiv: 2605.29879v1
分类: cs.CV, cs.RO
📝 论文摘要
将开放词汇语义信息集成到动态3D场景表示中对于长期具身场景理解至关重要。然而,现有方法常因跨视角线索不完整而导致实例关联脆弱,同时其处理物体级拓扑变化的能力有限,制约了长期机器人任务执行。此外,当前3D场景理解方法要么依赖缺乏显式空间推理的简单特征匹配,要么假设离线真值3D几何结构。为解决这些挑战,我们提出DGSG-Mind——一个集成具身推理代理的混合实例感知3D高斯动态场景图系统。本系统将概率体素网格与显式3D高斯相结合,实现鲁棒的跨模态实例融合与增量语义建图。通过基于高斯的视觉重定位和由几何-语义一致性引导的局部掩码精化,系统可处理动态变化。基于实例高斯地图,DGSG-Mind进一步构建层次化场景图并开发3D高斯思维,该模块整合结构关系、空间语义信息及视觉标注的感兴趣区域高斯渲染,用于多模态推理。大量实验表明,DGSG-Mind在基于自建地图的方法中实现了最佳零样本3D视觉定位性能,同时在3D开放词汇语义分割和场景重建中表现强劲。我们进一步将DGSG-Mind部署于真实世界机器人,展示其目标导向推理与动态更新能力。DGSG-Mind项目页面:https://icr-lab.github.io/DGSG-Mind

📊 核心分析

🎯 研究动机
- 现有动态3D场景表示方法在处理**实例关联(instance association)** 时由于不完整的跨视角线索而脆弱 - 方法处理**物体级拓扑变化(object-level topological changes)** 能力有限,限制了长期机器人任务执行 - 现有3D场景理解方法要么依赖简单的**特征匹配(feature matching)** 而缺乏显式空间推理,要么假设离线**真值3D几何(ground-truth 3D geometry)**
🔧 核心方法
- 提出**DGSG-Mind**,一个混合实例感知的**3D高斯动态场景图(3D Gaussian Dynamic Scene Graph)** 系统,配备具身推理智能体 - 将**概率体素网格(probabilistic voxel grid)** 与显式**3D高斯(3D Gaussians)** 耦合,实现鲁棒的**跨模态实例融合(cross-modal instance fusion)** 和**增量语义映射(incremental semantic mapping)** - 通过基于高斯的**视觉重定位(visual relocalization)** 和由几何-语义一致性引导的**局部掩膜精化(localized masked refinement)** 处理动态变化 - 构建**层次场景图(hierarchical scene graph)** 并开发**3D高斯心智(3D Gaussian Mind)**,集成结构关系、空间-语义信息和视觉标注的**RoI高斯渲染(RoI Gaussian renderings)** 进行多模态推理
💡 核心创新
- **首创混合实例感知3D高斯动态场景图**:将概率体素与显式3D高斯结合,实现稳健的跨模态实例融合与增量语义建图 - **基于高斯视觉重定位与局部掩膜精化**:利用几何-语义一致性引导的动态变化处理,克服物体级拓扑变化 - **3D高斯心智**:首次整合结构关系、空间语义信息和RoI高斯渲染,支持多模态推理 - **零样本3D视觉接地(Zero-shot 3DVG)**:在自重建地图上达到最佳性能,无需离线真值几何
🏆 总体贡献
- 在**自重建地图(self-reconstructed maps)** 上的零样本**3D视觉接地(3DVG)** 任务中达到最佳性能 - 在**3D开放词汇语义分割(3D open-vocabulary semantic segmentation)** 和**场景重建(scene reconstruction)** 方面表现强劲 - 部署于真实机器人,验证了**目标导向推理** 和**动态更新** 能力 - 提供开源项目页面,促进社区复现与后续研究