- 探究物体姿态和形状估计方法是否已足够成熟,能够与**对极抓取采样(antipodal grasp sampling)** 结合,从而在抓取任务中超越**端到端抓取合成(end-to-end grasp synthesis)** 方法
- 背景:近期**编码器-解码器(encoder-decoder)** 和**扩散模型(diffusion-based models)** 在类别无关形状编码和开放集泛化方面取得显著进展,但尚未在抓取应用中进行系统性比较
- 聚焦于**平行夹爪(parallel jaw grippers)**、**7自由度(7-DoF)抓取** 和**单视图RGB(-D)图像输入** 场景,以缩小研究范围
- 采用**模块化方法(modular methods)**:先对场景中所有物体进行**姿态和形状估计(pose and shape estimation)**,然后使用**对极抓取采样(antipodal grasp sampling)** 生成抓取
- 对比方法:实现一种**端到端抓取合成(end-to-end grasp synthesis)** 方法作为基线,与三种模块化方法进行比较
- 两种姿态形状估计方式:基于**编码器-解码器模型(encoder-decoder model)** 和基于**扩散模型(diffusion model)**
- 进一步将单视图物体姿态形状估计与**视觉-语言模型(Vision-Language Model, VLM)** 结合,实现**语言条件抓取(language-conditioned grasps)**,仅需单视图RGB-D图像输入
- **系统性比较**:首次在同一实验设置下,严格对比**模块化方法** 与**端到端方法** 在抓取任务中的性能,发现模块化方法在所有实验中均优于端到端方法
- **能力分析**:模块化方法能够为小物体合成大量抓取,而端到端方法在小物体上完全失效,揭示了两种范式的差异
- **失败模式与运行时间分析**:详细分析了三种模块化方法的失败模式,并指出其有效性依赖于**姿态和形状估计的精度**,且在杂乱场景中存在部分性能退化
- **语言条件抓取新途径**:创新性地将**单视图姿态形状估计** 与**视觉-语言模型** 结合,实现从单视图RGB-D图像生成语言条件抓取,性能与先进基线**LERF-TOGO** 相当
- 证明了**模块化方法(modular methods)** 在抓取任务中优于**端到端方法(end-to-end methods)**,为抓取研究提供了新的范式选择依据
- 揭示了现有物体姿态和形状估计方法的局限性(如杂乱场景下性能下降),为后续改进指明方向
- 开源了三种模块化方法的实现和评估结果,促进社区复现与进一步研究
- 展示了**单视图姿态形状估计与视觉-语言模型的结合** 在语言条件抓取中的潜力,拓展了抓取系统与自然语言交互的能力边界