该论文旨在解决图像编辑中物体操纵的物理准确性问题。研究背景是现有视觉生成模型在精确空间操纵方面存在不足,经常导致物体缩放和定位错误,这主要源于缺乏整合3D几何和透视投影的显式机制。
论文开发了PhyEdit框架,其核心方法包括:
- 利用显式几何模拟作为上下文3D感知视觉引导
- 结合即插即用的3D先验知识与联合2D-3D监督
- 构建了包含配对图像和深度标注的真实世界数据集RealManip-10K
- 提出了多维度评估基准ManipEval
论文的核心创新点在于:
- 首次将显式几何模拟作为可插拔的3D先验知识整合到图像编辑框架中,实现了物理基础的物体操纵
- 提出了联合2D-3D监督方法,同时优化视觉质量和3D几何一致性
- 构建了专门针对3D感知物体操纵任务的大规模真实世界数据集和评估基准
论文对该领域的整体贡献包括:
- 提出了PhyEdit框架,显著提升了图像编辑中物体操纵的物理准确性和一致性
- 发布了RealManip-10K数据集和ManipEval评估基准,为3D感知图像编辑研究提供了重要资源
- 实验证明该方法在3D几何准确性和操纵一致性方面优于现有方法,包括强大的闭源模型