该论文旨在解决从超高分辨率无人机(UAV)图像进行实时深度重建的挑战,这对于灾害响应等时间关键的地理空间任务至关重要。研究背景包括:
- 传统方法面临宽基线视差、大图像尺寸、低纹理或镜面表面、遮挡以及严格计算限制等问题
- 现有的零样本(zero-shot)扩散模型虽然能快速进行单图像密集预测,但其概率推理导致跨序列帧和重叠图块的度量精度和时间一致性不足
论文提出了ZeD-MAP框架,具体方法包括:
- 将测试时的扩散深度模型转换为类似SLAM的映射流程
- 通过集成基于增量聚类(cluster-based)的束调整(bundle adjustment, BA)来实现度量一致性
- 将流式UAV帧分组为重叠聚类(clusters)
- 周期性BA产生度量一致的姿态和稀疏3D连接点(tie-points)
- 将这些点重投影到选定帧中,作为基于扩散(diffusion-based)深度估计的度量引导
论文的核心创新点在于:
- 首次将零样本扩散模型与增量束调整(BA)相结合,创建了实时度量一致的深度映射框架
- 提出了“BA引导的扩散深度估计”新范式,用稀疏但精确的3D点约束概率性深度预测
- 实现了传统摄影测量(photogrammetric)方法的度量精度与深度学习模型速度优势的融合
- 设计了聚类级(cluster-level)处理架构,平衡了计算效率与跨帧一致性
论文对该领域的整体贡献包括:
- 开发了ZeD-MAP框架,在保持每图像1.47-4.91秒运行时间的同时,实现了亚米级精度(水平面约0.87米误差,垂直方向约0.12米误差)
- 证明了基于BA的度量引导能提供与传统摄影测量方法相当的精度,同时显著加速处理
- 为实时3D地图生成提供了可行解决方案,特别适用于灾害响应等时间敏感应用
- 在DLR模块化航空相机系统(MACS)采集的真实数据上验证了方法的有效性