← 返回论文列表

EndoVGGT:基于图神经网络增强的手术三维重建深度估计
EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction

作者: Falong Fan, Yi Xie, Arnis Lektauers 等5人
arXiv: 2603.24577v1
分类: cs.CV, cs.AI
📝 论文摘要
精确的软组织三维重建对于手术机器人感知至关重要。然而,低纹理表面、镜面高光和器械遮挡常导致几何连续性断裂,这对现有固定拓扑方法构成挑战。为此,我们提出以几何为中心的EndoVGGT框架,其配备的形变感知图注意力模块能够突破静态空间邻域限制,通过动态构建特征空间语义图来捕捉相干组织区域间的长程关联。该机制实现了结构线索在遮挡区域的鲁棒传播,从而增强全局一致性并提升非刚性形变恢复能力。在SCARED数据集上的大量实验表明,本方法显著提升重建保真度——峰值信噪比提升24.6%,结构相似性指数提高9.1%。更重要的是,EndoVGGT在未见过的SCARED与EndoNeRF数据集上展现出强大的零样本跨域泛化能力,证实了形变感知图注意力模块能够学习领域无关的几何先验。这些成果凸显了动态特征空间建模在实现稳定手术三维重建中的有效性。

📊 核心分析

🎯 研究动机
该论文旨在解决手术机器人感知中可变形软组织三维重建的准确性问题。研究背景是:在手术场景中,低纹理表面、镜面高光和器械遮挡常常破坏几何连续性,这对现有的固定拓扑方法构成了挑战。
🔧 核心方法
论文提出了一个名为EndoVGGT的以几何为中心的框架,其核心是一个变形感知图注意力(Deformation-aware Graph Attention, DeGAT)模块。该方法的关键在于: - 不依赖静态空间邻域,而是动态地在特征空间构建语义图(semantic graphs)。 - 利用这些图来捕获相干组织区域之间的长程相关性(long-range correlations)。 - 通过这种方式,能够在遮挡区域之间鲁棒地传播结构线索,从而增强全局一致性并改进非刚性变形恢复。
💡 核心创新
论文的核心创新点在于其动态的、基于特征空间的图建模方法,具体体现在: - **动态特征空间图构建**:与现有固定拓扑方法不同,DeGAT模块动态地在特征空间(而非预定义的静态空间)构建语义图,以自适应地捕获组织区域间的语义关联。 - **长程相关性建模**:该方法能够有效建模被遮挡或低纹理区域分割开的相干组织区域之间的长程依赖关系,这是传统基于局部邻域的方法难以实现的。 - **领域无关的几何先验学习**:通过这种动态图学习机制,模型能够学习到对领域变化不敏感的通用几何先验(domain-agnostic geometric priors),这赋予了模型强大的零样本跨数据集泛化能力。
🏆 总体贡献
论文对该领域的总体贡献包括: - 提出了EndoVGGT框架和DeGAT模块,为处理手术场景中因遮挡和变形导致的几何不连续问题提供了一种新颖的解决方案。 - 在SCARED数据集上的实验表明,该方法在保真度上显著优于现有最优方法,PSNR和SSIM分别提升了24.6%和9.1%。 - 关键地,该方法展示了强大的零样本跨数据集泛化能力(在未见过的SCARED和EndoNeRF领域),验证了其学习到的几何先验的普适性。 - 这些结果共同凸显了动态特征空间建模对于实现一致、鲁棒的手术三维重建的有效性。