← 返回论文列表

动态场景结构光与畸变感知高斯溅射驱动的快速三维车辆外观重建
Drive-Through 3D Vehicle Exterior Reconstruction via Dynamic-Scene SfM and Distortion-Aware Gaussian Splatting

作者: Nitin Kulkarni, Akhil Devarashetti, Charlie Cluss 等7人
arXiv: 2603.26638v1
分类: cs.CV, cs.RO
📝 论文摘要
车辆外观的高保真三维重建能提升买家对在线汽车交易平台的信心,然而在杂乱经销商通道中生成此类模型存在严峻技术挑战。与静态场景摄影测量不同,该场景中动态车辆在高度杂乱的静态背景前移动。广角镜头畸变、高反射性车漆以及破坏经典对极几何约束的非刚性车轮转动,进一步加剧了该问题的复杂性。我们提出一种采用双柱式相机阵列的端到端处理流程。首先,通过耦合SAM 3实例分割与运动门控技术,清晰分离运动车辆并显式掩蔽非刚性车轮,以消除动态场景歧义并保持严格对极几何约束。其次,在原始畸变4K图像上,借助语义置信度掩膜引导的RoMa v2学习匹配器提取鲁棒对应点。再次,将这些匹配点集成至基于阵列感知的运动恢复结构优化框架,利用CAD导出的相对位姿先验消除尺度漂移。最后,采用畸变感知三维高斯溅射框架(3DGUT)结合随机马尔可夫链蒙特卡洛(MCMC)致密化策略实现反射表面渲染。在10家经销商25辆实车的评估中,完整流程在预留视角上达到28.66 dB的峰值信噪比、0.89的结构相似性指数及0.21的感知损失值,较标准三维高斯溅射方法提升3.85 dB,无需专业影棚设备即可生成满足检测级要求的交互式三维模型。

📊 核心分析

🎯 研究动机
该论文旨在解决在杂乱汽车经销商通道中,对动态车辆进行高保真3D重建的技术难题。研究背景是:在线汽车市场需要高质量的车辆外观3D模型以提升买家信心,但传统静态场景重建方法在此类动态、杂乱场景中面临严重挑战,包括:动态车辆与静态杂乱背景的分离、广角镜头畸变、高反光车漆以及非刚性车轮旋转破坏经典对极几何约束等问题。
🔧 核心方法
论文提出一个端到端流程,主要包含四个步骤: - 动态场景解析:使用SAM 3进行实例分割,结合运动门控技术来干净地分离移动车辆,并显式掩码非刚性车轮以强制执行严格的对极几何。 - 鲁棒特征匹配:在原始畸变的4K图像上,使用由语义置信度掩码引导的RoMa v2学习匹配器提取鲁棒对应点。 - 运动恢复结构优化:将匹配点集成到利用CAD导出相对位姿先验的相机阵列感知SfM优化中,以消除尺度漂移。 - 渲染重建:采用畸变感知3D高斯溅射框架(3DGUT),并结合随机马尔可夫链蒙特卡洛(MCMC)致密化策略来渲染反光表面。
💡 核心创新
论文的核心创新点在于提出了一套专门针对高度动态、杂乱且存在畸变的真实世界车辆重建场景的完整解决方案,其独特之处包括: - 动态场景处理:将实例分割(SAM 3)与运动门控耦合,有效分离动态车辆与静态杂乱背景,并显式处理非刚性车轮以维护几何约束。 - 鲁棒特征提取:直接在原始畸变图像上使用学习型匹配器(RoMa v2),并结合语义引导,提升了在挑战性条件下的匹配鲁棒性。 - 系统集成与优化:将CAD先验融入相机阵列感知的SfM优化,解决了尺度漂移问题;并提出了畸变感知的3D高斯溅射框架与MCMC致密化策略,专门优化了对反光表面的渲染质量。 - 端到端实用性:整个流程无需受控的摄影棚环境,即可在真实经销商场景中生成可用于检测的交互式3D模型。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出并验证了一个完整的端到端管道,首次在高度动态、杂乱且存在畸变的真实世界经销商通道场景中,实现了高质量的车辆外观3D重建。 - 通过集成先进的计算机视觉技术(如SAM 3、RoMa v2)并引入针对性的优化策略(如运动门控、CAD先验、畸变感知3DGS),系统性地解决了动态场景分离、鲁棒匹配、尺度稳定和反光表面渲染等一系列关键技术挑战。 - 在10个经销商25辆真实车辆上的评估表明,该方法在PSNR、SSIM和LPIPS指标上显著优于标准3D-GS方法(PSNR提升3.85 dB),证明了其有效性和实用性,为在线汽车市场等应用提供了可行的技术方案。