- 从无位姿的多视图图像重建连贯的3D几何和外观是计算机视觉中的基本挑战性问题
- 现有视觉几何基础模型通过回归像素对齐的点图来预测显式几何,常存在冗余和几何连续性受限的问题
- 研究背景:需要一种隐式、连续且连贯的几何表示方法,避免显式回归的缺陷
- 提出**隐式视觉几何Transformer(Implicit Visual Geometry Transformer, IVGT)**,从无位姿多视图图像中隐式建模连续连贯的几何
- 在标准坐标系中学习连续的**神经场景表示(neural scene representation)**,支持任意3D位置的连续空间查询
- 通过轻量级解码器检索局部特征,预测**符号距离函数(Signed Distance Function, SDF)** 值和颜色
- 使用多数据集联合优化,结合2D监督和3D几何正则化进行训练
- **隐式几何建模**:区别于现有显式点图回归方法,IVGT隐式学习连续几何,避免冗余并保证几何连续性
- **连续空间查询**:支持在任意3D位置检索局部特征,直接提取连续且连贯的表面几何
- **多任务统一框架**:仅通过单一网络同时支持网格/点云重建、新视角合成、深度/法线估计和相机位姿估计
- **跨场景泛化**:在大规模多数据集上联合优化,实现跨场景泛化能力
- 为无位姿多视图场景重建提供了一种新颖的隐式几何范式,提升了几何连续性和表示效率
- 在多项任务上(网格/点云重建、新视角合成、深度/法线估计、位姿估计)展示了强性能
- 推动了隐式神经表示在视觉几何基础模型中的应用,为后续研究提供新思路