← 返回论文列表

PhyEdit:迈向基于物理基础的图像编辑实现真实世界物体操控
PhyEdit: Towards Real-World Object Manipulation via Physically-Grounded Image Editing

作者: Ruihang Xu, Dewei Zhou, Xiaolong Shen 等5人
arXiv: 2604.07230v1
分类: cs.CV
📝 论文摘要
在图像编辑中实现物理精确的对象操控,对于其在交互式世界模型中的潜在应用至关重要。然而,现有的视觉生成模型往往难以实现精确的空间操控,导致物体缩放和定位错误。这一局限主要源于缺乏整合三维几何与透视投影的显式机制。为实现精准操控,我们开发了PhyEdit——一种利用显式几何模拟作为上下文三维感知视觉引导的图像编辑框架。通过将这种即插即用的三维先验知识与二维-三维联合监督相结合,我们的方法有效提升了物理精确性与操控一致性。为支持该方法并评估性能,我们构建了真实世界数据集RealManip-10K,该数据集包含配对图像与深度标注,专为三维感知物体操控设计。同时我们提出ManipEval基准测试,通过多维度指标评估三维空间控制与几何一致性。大量实验表明,我们的方法在三维几何精度与操控一致性方面均优于现有方法,包括性能强劲的闭源模型。

📊 核心分析

🎯 研究动机
该论文旨在解决图像编辑中物体操纵的物理准确性问题。研究背景是现有视觉生成模型在精确空间操纵方面存在不足,经常导致物体缩放和定位错误,这主要源于缺乏整合3D几何和透视投影的显式机制。
🔧 核心方法
论文开发了PhyEdit框架,其核心方法包括: - 利用显式几何模拟作为上下文3D感知视觉引导 - 结合即插即用的3D先验知识与联合2D-3D监督 - 构建了包含配对图像和深度标注的真实世界数据集RealManip-10K - 提出了多维度评估基准ManipEval
💡 核心创新
论文的核心创新点在于: - 首次将显式几何模拟作为可插拔的3D先验知识整合到图像编辑框架中,实现了物理基础的物体操纵 - 提出了联合2D-3D监督方法,同时优化视觉质量和3D几何一致性 - 构建了专门针对3D感知物体操纵任务的大规模真实世界数据集和评估基准
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了PhyEdit框架,显著提升了图像编辑中物体操纵的物理准确性和一致性 - 发布了RealManip-10K数据集和ManipEval评估基准,为3D感知图像编辑研究提供了重要资源 - 实验证明该方法在3D几何准确性和操纵一致性方面优于现有方法,包括强大的闭源模型