SECOND-Grasp：语义接触引导的灵巧抓取

📝 论文摘要

实现可靠的机器人操作（例如灵巧抓取）需要物理稳定交互与语义任务引导之间的协同，但这些目标往往被当作分离、不相关的目标来处理。本文研究如何融合灵巧抓取技术（即用于物体抬升的物理稳定抓取与基于语言的抓取生成），以实现物理稳定性与语义理解的统一。为此，我们提出SECOND-Grasp（语义接触引导的灵巧抓取）统一框架，使机械手能够在确保物理可行性的同时，基于语义推理动态调整抓取策略。我们首先通过视觉-语言推理获取粗略的接触提议，基于物体属性推断接触应发生的位置，随后通过分割在不同视角下定位这些区域。为进一步确保多视角一致性，我们引入语义-几何一致性优化（SGCR），通过强制视角间语义一致性并剔除几何无效区域来优化初始接触预测，生成可靠的3D接触图。然后，我们通过逆运动学为每个接触图推导可行的手部姿态，为策略学习生成监督信号。该方法在DexGraspNet上训练，在未见和已见类别上的抬升成功率均持续优于基线，分别达到98.2%和97.7%，同时意图感知抓取成功率提升12.8%和26.2%。我们进一步在包括Shadow Hand和Allegro Hand在内的额外数据集和机械手上展示了有前景的结果。

🎯 研究动机

- 现有**灵巧抓取(dexterous grasping)** 方法通常将物理稳定交互与语义任务引导作为分离目标，缺乏统一整合 - 研究背景：机器人操作要求同时实现可靠物理抓取和基于语义的意图理解，但现有技术难以兼顾 - 需要解决的核心问题：如何融合物理稳定性与语义推理，实现动态调整抓取策略的灵巧抓取框架

🔧 核心方法

- 提出**语义接触引导灵巧抓取(SEmantic CONtact-guided Dexterous Grasping, SECOND-Grasp)** 统一框架 - 通过**视觉-语言推理(vision-language reasoning)** 获得粗略接触提案，再利用分割在多个视图中定位接触区域 - 引入**语义-几何一致性细化(Semantic-Geometric Consistency Refinement, SGCR)**，通过强制跨视图语义一致性并移除几何无效区域，生成可靠3D接触图 - 对每个接触图通过**逆运动学(inverse kinematics)** 推导可行手部姿态，产生监督信号用于策略学习

💡 核心创新

- **首次统一** 物理稳定性与语义理解：框架能够基于语义推理动态调整抓取策略，同时保证物理可行性 - **SGCR模块**：创新性地结合语义一致性与几何有效性，解决多视图接触预测的不一致问题，生成精确3D接触图 - **基于接触的监督信号生成**：通过逆运动学从接触图自动推导手部姿态，避免复杂的手部姿态标注，实现高效策略学习

🏆 总体贡献

- 提出**SECOND-Grasp** 新范式，为灵巧抓取在物理-语义协同方面提供了有效解决方案 - 在**DexGraspNet** 数据集上达到领先性能：已知类别抓取成功率98.2%，未见类别97.7%；意图感知抓取提升12.8%和26.2% - 验证了方法的通用性，在**Shadow Hand** 和**Allegro Hand** 等多种机器人手上均表现良好

SECOND-Grasp：语义接触引导的灵巧抓取
SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

📊 核心分析

SECOND-Grasp：语义接触引导的灵巧抓取 SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

📊 核心分析

SECOND-Grasp：语义接触引导的灵巧抓取
SECOND-Grasp: Semantic Contact-guided Dexterous Grasping