解耦点扩散实现精确物体放置

Disentangled Point Diffusion for Precise Object Placement

作者: Lyuxing He, Eric Cai, Shobhit Aggarwal 等5人

arXiv: 2604.11793v1

分类: cs.RO

📝 论文摘要

机器人操作领域的最新进展凸显了从演示中学习的有效性。然而，尽管端到端策略在表达性和灵活性方面表现出色，但在泛化到新物体几何形状和实现高精度方面仍面临挑战。一种以物体为中心的替代方法将任务定义为预测目标物体的放置姿态，从而提供了问题的模块化分解。基于这一目标预测范式，我们提出了TAX-DPD——一种分层解耦的点云扩散框架，在放置精度、多模态覆盖以及对物体几何形状和场景配置变化的泛化能力方面均达到了最先进的性能。我们通过一种新颖的前馈密集高斯混合模型（GMM）对全局场景级放置进行建模，该模型能够生成全局放置的空间密集先验分布；随后，我们通过一种新颖的解耦点云扩散模块对局部物体级配置进行建模，该模块分别对物体几何形状和放置坐标系进行扩散，从而实现精确的局部几何推理。值得注意的是，我们的实验表明，即使在刚性物体放置的场景中，我们的点云扩散方法也比先前基于SE(3)扩散的方法实现了显著更高的精度。我们通过一系列仿真和真实世界中的高精度工业插装任务验证了该方法的有效性。此外，我们还展示了仿真环境中布料悬挂任务的结果，表明该框架可以进一步放宽对物体刚性的假设。

📊 核心分析

🎯 研究动机

该论文旨在解决机器人操作中物体精确放置的问题。研究背景是：虽然从演示中学习的方法在机器人操作领域取得了进展，但端到端策略在泛化到新物体几何形状和实现高精度放置方面存在困难。

🔧 核心方法

论文提出了TAX-DPD，一个分层、解耦的点扩散框架。具体方法包括： - 通过新颖的前馈密集高斯混合模型(Dense Gaussian Mixture Model, GMM)对全局场景级放置进行建模，生成空间密集的全局放置先验。 - 通过新颖的解耦点云扩散(disentangled point cloud diffusion)模块对局部物体级配置进行建模，该模块分别扩散物体几何和放置坐标系，从而实现精确的局部几何推理。

💡 核心创新

论文的核心创新点是与现有工作相比的独特之处： - 提出了分层、解耦的点扩散框架，将全局场景先验与局部物体级精确推理分离。 - 设计了新颖的解耦点云扩散模块，分别处理物体几何和放置坐标系，这比基于SE(3)-扩散的方法在刚性物体放置中实现了更高的精度。 - 框架能够放宽对物体刚性的假设，可应用于非刚性物体任务（如模拟中的挂布任务）。

🏆 总体贡献

论文对该领域的整体贡献是： - 在放置精度、多模态覆盖以及泛化到物体几何和场景配置变化方面实现了最先进的性能。 - 在模拟和现实世界的高精度工业插入任务中验证了方法的有效性。 - 展示了框架可扩展到非刚性物体操作，拓宽了应用范围。