← 返回论文列表

空间编辑:细粒度图像空间编辑基准测试
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

作者: Yicheng Xiao, Wenhu Zhang, Lin Song 等13人
arXiv: 2604.04911v1
分类: cs.CV
📝 论文摘要
图像空间编辑执行几何驱动的变换,能够精确控制物体布局与相机视角。现有模型在细粒度空间操控方面存在不足,这促使我们构建专门的评估体系。本文贡献如下:(i) 我们提出SpatialEdit-Bench综合基准,通过视角重建与构图分析联合度量感知合理性与几何保真度,系统评估空间编辑能力。(ii) 为突破可扩展训练的数据瓶颈,我们构建SpatialEdit-500k合成数据集——该数据集通过可控Blender管线生成,在多样化背景中渲染物体并采用系统化相机轨迹,为物体中心与相机中心操作提供精确的真实变换标注。(iii) 基于此数据,我们开发了SpatialEdit-16B基线模型,专攻细粒度空间编辑任务。该方法在通用编辑任务中表现优异,更在空间操控任务上显著超越现有方法。所有资源将在https://github.com/EasonXiao-888/SpatialEdit开源发布。

📊 核心分析

🎯 研究动机
当前图像空间编辑模型在细粒度空间操作(如精确控制物体布局和相机视角)方面能力不足,缺乏专门的评估体系。该研究旨在解决细粒度图像空间编辑的评估基准缺失问题,并推动该领域的发展。
🔧 核心方法
论文提出了一个完整的评估框架,具体包括: - 构建了SpatialEdit-Bench基准,通过视角重建(viewpoint reconstruction)和构图分析(framing analysis)联合评估感知合理性和几何保真度。 - 创建了SpatialEdit-500k合成数据集,使用可控的Blender管线渲染不同背景下的物体和系统相机轨迹,为物体中心和相机中心操作提供精确的真实变换数据。 - 基于该数据开发了SpatialEdit-16B基线模型,用于细粒度空间编辑。
💡 核心创新
论文的核心创新点在于: - 首次提出了专门针对细粒度图像空间编辑任务的系统性评估基准(SpatialEdit-Bench),填补了该领域评估体系的空白。 - 创新性地构建了大规模合成数据集(SpatialEdit-500k),通过可控渲染流程解决了高质量训练数据稀缺的瓶颈问题。 - 提出了一个联合评估框架,将感知质量(perceptual plausibility)和几何保真度(geometric fidelity)相结合进行综合评测,超越了传统仅关注视觉质量的评估方式。
🏆 总体贡献
论文对该领域的整体贡献包括: - 建立了首个全面的细粒度图像空间编辑评估体系,为后续研究提供了标准化的评测基准。 - 通过开源大规模合成数据集和基线模型,解决了该领域的数据和模型瓶颈,促进了技术发展。 - 在空间编辑任务上显著超越了现有方法,同时保持了通用编辑任务的竞争力,推动了图像编辑技术向更精确的几何控制方向发展。