IVGT: 用于神经场景表示的隐式视觉几何变换器

📝 论文摘要

从无标定多视角图像重建连贯的三维几何与外观是计算机视觉中一个基础但具有挑战性的问题。现有的大多数视觉几何基础模型通过回归像素对齐的点图来预测显式几何，通常存在冗余性和几何连续性不足的问题。我们提出IVGT——一种隐式视觉几何变换器，能够从无位姿的多视角图像中隐式建模连续且连贯的几何。该公式在一个规范坐标系中学习连续的神经场景表示，并支持在任意三维位置上进行连续空间查询，通过轻量级解码器检索局部特征以预测符号距离值（SDF）和颜色。它允许直接提取连续且连贯的表面几何，从而能够从任意视角渲染RGB图像、深度图和表面法向图。我们通过多数据集联合优化，结合二维监督和三维几何正则化来训练IVGT。IVGT展示了跨场景的泛化能力，并在包括网格和点云重建、新视角合成、深度与表面法向估计以及相机位姿估计等多项任务上取得了强劲性能。

🎯 研究动机

- 从无位姿的多视图图像重建连贯的3D几何和外观是计算机视觉中的基本挑战性问题 - 现有视觉几何基础模型通过回归像素对齐的点图来预测显式几何，常存在冗余和几何连续性受限的问题 - 研究背景：需要一种隐式、连续且连贯的几何表示方法，避免显式回归的缺陷

🔧 核心方法

- 提出**隐式视觉几何Transformer(Implicit Visual Geometry Transformer, IVGT)**，从无位姿多视图图像中隐式建模连续连贯的几何 - 在标准坐标系中学习连续的**神经场景表示(neural scene representation)**，支持任意3D位置的连续空间查询 - 通过轻量级解码器检索局部特征，预测**符号距离函数(Signed Distance Function, SDF)** 值和颜色 - 使用多数据集联合优化，结合2D监督和3D几何正则化进行训练

💡 核心创新

- **隐式几何建模**：区别于现有显式点图回归方法，IVGT隐式学习连续几何，避免冗余并保证几何连续性 - **连续空间查询**：支持在任意3D位置检索局部特征，直接提取连续且连贯的表面几何 - **多任务统一框架**：仅通过单一网络同时支持网格/点云重建、新视角合成、深度/法线估计和相机位姿估计 - **跨场景泛化**：在大规模多数据集上联合优化，实现跨场景泛化能力

🏆 总体贡献

- 为无位姿多视图场景重建提供了一种新颖的隐式几何范式，提升了几何连续性和表示效率 - 在多项任务上（网格/点云重建、新视角合成、深度/法线估计、位姿估计）展示了强性能 - 推动了隐式神经表示在视觉几何基础模型中的应用，为后续研究提供新思路

IVGT: 用于神经场景表示的隐式视觉几何变换器
IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

📊 核心分析

IVGT: 用于神经场景表示的隐式视觉几何变换器 IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

📊 核心分析

IVGT: 用于神经场景表示的隐式视觉几何变换器
IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation