任务导向抓取(task-oriented grasping, TOG)比简单物体抓取更具挑战性,因为它需要精确识别物体部件并仔细选择抓取区域以确保有效和鲁棒的操作。现有方法虽然训练了大规模视觉语言模型(vision-language models)来整合部件级物体分割和任务感知的抓取规划,但其在部件识别和抓取推理方面的不稳定性限制了其在不同物体和任务间的泛化能力。
论文提出了一种新颖的、以几何为中心的策略,不依赖于视觉识别的语义特征,以克服基于模型的方法对视角的敏感性。具体包括:
1. 使用大语言模型(Large Language Model, LLM)构建一个用于基于直观人类指令进行功能部件选择的对象-部件-任务本体论(object-part-task ontology)。
2. 一种基于采样的几何分析方法,用于从观测到的点云中识别选定的物体部件,该方法结合了多种点分布和距离度量(point distribution and distance metrics)。
3. 一个用于模仿抓取规划的相似性匹配框架(similarity matching framework),利用具有预先存在的分割和抓取知识的相似已知物体作为参考,来指导对未知目标的规划。
核心创新点在于提出了一种不依赖视觉语义识别、以几何和本体论为中心的通用任务导向抓取新范式。具体独特之处包括:
• **LLM引导的本体论构建**:利用大语言模型(LLM)的常识推理能力,从人类直观指令动态构建对象-部件-任务的功能关联,替代了传统基于固定数据训练的分类器。
• **纯几何部件识别**:通过采样和多种几何度量分析点云分布来识别部件,完全规避了基于视觉模型识别部件时的不稳定性和视角敏感性。
• **基于相似性的模仿规划**:通过匹配未知目标与已知参考物体在几何和功能上的相似性,进行抓取规划迁移,实现了从已知到未知的知识泛化,而非从零开始学习或推理。
论文对该领域的整体贡献包括:
• 提出了一种更通用、更稳定的任务导向抓取(TOG)新框架,其性能不依赖于大规模视觉语言模型的语义识别精度。
• 通过真实世界实验验证了该方法在功能部件选择、识别和抓取生成方面的高准确性。
• 展示了该方法通过扩展现有本体论知识,能够泛化到新类别物体,证明了其对广泛物体和任务的适应能力。