当前图像空间编辑模型在细粒度空间操作(如精确控制物体布局和相机视角)方面能力不足,缺乏专门的评估体系。该研究旨在解决细粒度图像空间编辑的评估基准缺失问题,并推动该领域的发展。
论文提出了一个完整的评估框架,具体包括:
- 构建了SpatialEdit-Bench基准,通过视角重建(viewpoint reconstruction)和构图分析(framing analysis)联合评估感知合理性和几何保真度。
- 创建了SpatialEdit-500k合成数据集,使用可控的Blender管线渲染不同背景下的物体和系统相机轨迹,为物体中心和相机中心操作提供精确的真实变换数据。
- 基于该数据开发了SpatialEdit-16B基线模型,用于细粒度空间编辑。
论文的核心创新点在于:
- 首次提出了专门针对细粒度图像空间编辑任务的系统性评估基准(SpatialEdit-Bench),填补了该领域评估体系的空白。
- 创新性地构建了大规模合成数据集(SpatialEdit-500k),通过可控渲染流程解决了高质量训练数据稀缺的瓶颈问题。
- 提出了一个联合评估框架,将感知质量(perceptual plausibility)和几何保真度(geometric fidelity)相结合进行综合评测,超越了传统仅关注视觉质量的评估方式。
论文对该领域的整体贡献包括:
- 建立了首个全面的细粒度图像空间编辑评估体系,为后续研究提供了标准化的评测基准。
- 通过开源大规模合成数据集和基线模型,解决了该领域的数据和模型瓶颈,促进了技术发展。
- 在空间编辑任务上显著超越了现有方法,同时保持了通用编辑任务的竞争力,推动了图像编辑技术向更精确的几何控制方向发展。