该论文旨在解决在杂乱汽车经销商通道中,对动态车辆进行高保真3D重建的技术难题。研究背景是:在线汽车市场需要高质量的车辆外观3D模型以提升买家信心,但传统静态场景重建方法在此类动态、杂乱场景中面临严重挑战,包括:动态车辆与静态杂乱背景的分离、广角镜头畸变、高反光车漆以及非刚性车轮旋转破坏经典对极几何约束等问题。
论文提出一个端到端流程,主要包含四个步骤:
- 动态场景解析:使用SAM 3进行实例分割,结合运动门控技术来干净地分离移动车辆,并显式掩码非刚性车轮以强制执行严格的对极几何。
- 鲁棒特征匹配:在原始畸变的4K图像上,使用由语义置信度掩码引导的RoMa v2学习匹配器提取鲁棒对应点。
- 运动恢复结构优化:将匹配点集成到利用CAD导出相对位姿先验的相机阵列感知SfM优化中,以消除尺度漂移。
- 渲染重建:采用畸变感知3D高斯溅射框架(3DGUT),并结合随机马尔可夫链蒙特卡洛(MCMC)致密化策略来渲染反光表面。
论文的核心创新点在于提出了一套专门针对高度动态、杂乱且存在畸变的真实世界车辆重建场景的完整解决方案,其独特之处包括:
- 动态场景处理:将实例分割(SAM 3)与运动门控耦合,有效分离动态车辆与静态杂乱背景,并显式处理非刚性车轮以维护几何约束。
- 鲁棒特征提取:直接在原始畸变图像上使用学习型匹配器(RoMa v2),并结合语义引导,提升了在挑战性条件下的匹配鲁棒性。
- 系统集成与优化:将CAD先验融入相机阵列感知的SfM优化,解决了尺度漂移问题;并提出了畸变感知的3D高斯溅射框架与MCMC致密化策略,专门优化了对反光表面的渲染质量。
- 端到端实用性:整个流程无需受控的摄影棚环境,即可在真实经销商场景中生成可用于检测的交互式3D模型。
论文对该领域的整体贡献是:
- 提出并验证了一个完整的端到端管道,首次在高度动态、杂乱且存在畸变的真实世界经销商通道场景中,实现了高质量的车辆外观3D重建。
- 通过集成先进的计算机视觉技术(如SAM 3、RoMa v2)并引入针对性的优化策略(如运动门控、CAD先验、畸变感知3DGS),系统性地解决了动态场景分离、鲁棒匹配、尺度稳定和反光表面渲染等一系列关键技术挑战。
- 在10个经销商25辆真实车辆上的评估表明,该方法在PSNR、SSIM和LPIPS指标上显著优于标准3D-GS方法(PSNR提升3.85 dB),证明了其有效性和实用性,为在线汽车市场等应用提供了可行的技术方案。