DGSG-Mind：用于长期场景理解与锚定的动态3D高斯场景图

📝 论文摘要

将开放词汇语义信息集成到动态3D场景表示中对于长期具身场景理解至关重要。然而，现有方法常因跨视角线索不完整而导致实例关联脆弱，同时其处理物体级拓扑变化的能力有限，制约了长期机器人任务执行。此外，当前3D场景理解方法要么依赖缺乏显式空间推理的简单特征匹配，要么假设离线真值3D几何结构。为解决这些挑战，我们提出DGSG-Mind——一个集成具身推理代理的混合实例感知3D高斯动态场景图系统。本系统将概率体素网格与显式3D高斯相结合，实现鲁棒的跨模态实例融合与增量语义建图。通过基于高斯的视觉重定位和由几何-语义一致性引导的局部掩码精化，系统可处理动态变化。基于实例高斯地图，DGSG-Mind进一步构建层次化场景图并开发3D高斯思维，该模块整合结构关系、空间语义信息及视觉标注的感兴趣区域高斯渲染，用于多模态推理。大量实验表明，DGSG-Mind在基于自建地图的方法中实现了最佳零样本3D视觉定位性能，同时在3D开放词汇语义分割和场景重建中表现强劲。我们进一步将DGSG-Mind部署于真实世界机器人，展示其目标导向推理与动态更新能力。DGSG-Mind项目页面：https://icr-lab.github.io/DGSG-Mind

🎯 研究动机

- 现有动态3D场景表示方法在处理**实例关联(instance association)** 时由于不完整的跨视角线索而脆弱 - 方法处理**物体级拓扑变化(object-level topological changes)** 能力有限，限制了长期机器人任务执行 - 现有3D场景理解方法要么依赖简单的**特征匹配(feature matching)** 而缺乏显式空间推理，要么假设离线**真值3D几何(ground-truth 3D geometry)**

🔧 核心方法

- 提出**DGSG-Mind**，一个混合实例感知的**3D高斯动态场景图(3D Gaussian Dynamic Scene Graph)** 系统，配备具身推理智能体 - 将**概率体素网格(probabilistic voxel grid)** 与显式**3D高斯(3D Gaussians)** 耦合，实现鲁棒的**跨模态实例融合(cross-modal instance fusion)** 和**增量语义映射(incremental semantic mapping)** - 通过基于高斯的**视觉重定位(visual relocalization)** 和由几何-语义一致性引导的**局部掩膜精化(localized masked refinement)** 处理动态变化 - 构建**层次场景图(hierarchical scene graph)** 并开发**3D高斯心智(3D Gaussian Mind)**，集成结构关系、空间-语义信息和视觉标注的**RoI高斯渲染(RoI Gaussian renderings)** 进行多模态推理

💡 核心创新

- **首创混合实例感知3D高斯动态场景图**：将概率体素与显式3D高斯结合，实现稳健的跨模态实例融合与增量语义建图 - **基于高斯视觉重定位与局部掩膜精化**：利用几何-语义一致性引导的动态变化处理，克服物体级拓扑变化 - **3D高斯心智**：首次整合结构关系、空间语义信息和RoI高斯渲染，支持多模态推理 - **零样本3D视觉接地(Zero-shot 3DVG)**：在自重建地图上达到最佳性能，无需离线真值几何

🏆 总体贡献

- 在**自重建地图(self-reconstructed maps)** 上的零样本**3D视觉接地(3DVG)** 任务中达到最佳性能 - 在**3D开放词汇语义分割(3D open-vocabulary semantic segmentation)** 和**场景重建(scene reconstruction)** 方面表现强劲 - 部署于真实机器人，验证了**目标导向推理** 和**动态更新** 能力 - 提供开源项目页面，促进社区复现与后续研究

DGSG-Mind：用于长期场景理解与锚定的动态3D高斯场景图
DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

📊 核心分析

DGSG-Mind：用于长期场景理解与锚定的动态3D高斯场景图 DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

📊 核心分析

DGSG-Mind：用于长期场景理解与锚定的动态3D高斯场景图
DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding