用于抓取的物体姿态和形状估计：它有效吗？

📝 论文摘要

物体姿态和形状估计问题近年来取得了关键性进展。编码器-解码器（如SAM3D、LRM、CRISP）和基于扩散的模型（如InstantMesh、Zero123、SceneComplete）展现出类别无关的形状编码能力和开放集泛化能力。本研究提出疑问：当物体姿态和形状估计方法与对极抓取采样结合使用时，是否已足够成熟，能够超越端到端抓取合成方法？我们通过将研究范围限定在平行爪夹持器、7自由度抓取和单视图RGB(-D)图像输入，对此问题进行了深入探究。我们实现并比较了一种先进的端到端抓取合成方法与三种模块化方法，后者首先估计场景中所有物体的姿态和形状，再通过对极采样生成抓取。观察发现，模块化方法在所有实验中均优于端到端方法。模块化方法能够合成大量抓取，即使对于端到端方法失败的小物体也是如此。模块化方法的有效性依赖于姿态和形状估计的准确性，并在杂乱场景中会出现部分性能下降——这是现有姿态和形状估计方法的局限性。我们还分析了三种模块化方法的失效模式和运行时间，这些方法采用两种不同的物体姿态和形状估计方式：一种基于编码器-解码器模型，另一种基于扩散模型。最后，我们证明单视图物体姿态和形状估计方法可通过视觉语言模型增强，仅需单视图RGB-D图像输入即可生成语言条件下的抓取。我们观察到其性能与先进的LERF-TOGO基线相当。

🎯 研究动机

- 探究物体姿态和形状估计方法是否已足够成熟，能够与**对极抓取采样(antipodal grasp sampling)** 结合，从而在抓取任务中超越**端到端抓取合成(end-to-end grasp synthesis)** 方法 - 背景：近期**编码器-解码器(encoder-decoder)** 和**扩散模型(diffusion-based models)** 在类别无关形状编码和开放集泛化方面取得显著进展，但尚未在抓取应用中进行系统性比较 - 聚焦于**平行夹爪(parallel jaw grippers)**、**7自由度(7-DoF)抓取** 和**单视图RGB(-D)图像输入** 场景，以缩小研究范围

🔧 核心方法

- 采用**模块化方法(modular methods)**：先对场景中所有物体进行**姿态和形状估计(pose and shape estimation)**，然后使用**对极抓取采样(antipodal grasp sampling)** 生成抓取 - 对比方法：实现一种**端到端抓取合成(end-to-end grasp synthesis)** 方法作为基线，与三种模块化方法进行比较 - 两种姿态形状估计方式：基于**编码器-解码器模型(encoder-decoder model)** 和基于**扩散模型(diffusion model)** - 进一步将单视图物体姿态形状估计与**视觉-语言模型(Vision-Language Model, VLM)** 结合，实现**语言条件抓取(language-conditioned grasps)**，仅需单视图RGB-D图像输入

💡 核心创新

- **系统性比较**：首次在同一实验设置下，严格对比**模块化方法** 与**端到端方法** 在抓取任务中的性能，发现模块化方法在所有实验中均优于端到端方法 - **能力分析**：模块化方法能够为小物体合成大量抓取，而端到端方法在小物体上完全失效，揭示了两种范式的差异 - **失败模式与运行时间分析**：详细分析了三种模块化方法的失败模式，并指出其有效性依赖于**姿态和形状估计的精度**，且在杂乱场景中存在部分性能退化 - **语言条件抓取新途径**：创新性地将**单视图姿态形状估计** 与**视觉-语言模型** 结合，实现从单视图RGB-D图像生成语言条件抓取，性能与先进基线**LERF-TOGO** 相当

🏆 总体贡献

- 证明了**模块化方法(modular methods)** 在抓取任务中优于**端到端方法(end-to-end methods)**，为抓取研究提供了新的范式选择依据 - 揭示了现有物体姿态和形状估计方法的局限性（如杂乱场景下性能下降），为后续改进指明方向 - 开源了三种模块化方法的实现和评估结果，促进社区复现与进一步研究 - 展示了**单视图姿态形状估计与视觉-语言模型的结合** 在语言条件抓取中的潜力，拓展了抓取系统与自然语言交互的能力边界

用于抓取的物体姿态和形状估计：它有效吗？
Object Pose and Shape Estimation for Grasping: Does it Work?

📊 核心分析

用于抓取的物体姿态和形状估计：它有效吗？ Object Pose and Shape Estimation for Grasping: Does it Work?

📊 核心分析

用于抓取的物体姿态和形状估计：它有效吗？
Object Pose and Shape Estimation for Grasping: Does it Work?