- 现有动态3D场景表示方法在处理**实例关联(instance association)** 时由于不完整的跨视角线索而脆弱
- 方法处理**物体级拓扑变化(object-level topological changes)** 能力有限,限制了长期机器人任务执行
- 现有3D场景理解方法要么依赖简单的**特征匹配(feature matching)** 而缺乏显式空间推理,要么假设离线**真值3D几何(ground-truth 3D geometry)**
- 提出**DGSG-Mind**,一个混合实例感知的**3D高斯动态场景图(3D Gaussian Dynamic Scene Graph)** 系统,配备具身推理智能体
- 将**概率体素网格(probabilistic voxel grid)** 与显式**3D高斯(3D Gaussians)** 耦合,实现鲁棒的**跨模态实例融合(cross-modal instance fusion)** 和**增量语义映射(incremental semantic mapping)**
- 通过基于高斯的**视觉重定位(visual relocalization)** 和由几何-语义一致性引导的**局部掩膜精化(localized masked refinement)** 处理动态变化
- 构建**层次场景图(hierarchical scene graph)** 并开发**3D高斯心智(3D Gaussian Mind)**,集成结构关系、空间-语义信息和视觉标注的**RoI高斯渲染(RoI Gaussian renderings)** 进行多模态推理
- **首创混合实例感知3D高斯动态场景图**:将概率体素与显式3D高斯结合,实现稳健的跨模态实例融合与增量语义建图
- **基于高斯视觉重定位与局部掩膜精化**:利用几何-语义一致性引导的动态变化处理,克服物体级拓扑变化
- **3D高斯心智**:首次整合结构关系、空间语义信息和RoI高斯渲染,支持多模态推理
- **零样本3D视觉接地(Zero-shot 3DVG)**:在自重建地图上达到最佳性能,无需离线真值几何
- 在**自重建地图(self-reconstructed maps)** 上的零样本**3D视觉接地(3DVG)** 任务中达到最佳性能
- 在**3D开放词汇语义分割(3D open-vocabulary semantic segmentation)** 和**场景重建(scene reconstruction)** 方面表现强劲
- 部署于真实机器人,验证了**目标导向推理** 和**动态更新** 能力
- 提供开源项目页面,促进社区复现与后续研究