该论文旨在解决高自由度(high-degree-of-freedom, DoF)灵巧手在分层工作空间(tiered workspaces)中实现泛化抓取(generalizable grasping)的挑战。研究背景是,与开放桌面场景相比,分层工作空间中存在更强的遮挡(occlusion)、狭窄间隙(narrow clearances)和高度相关约束(height-dependent constraints),而现有方法大多在遮挡较少的环境中评估,且通常未明确建模在空间约束下手臂导航(arm navigation)与手部关节运动(hand articulation)的不同控制需求。
论文提出了一个名为SpaceDex的分层框架(hierarchical framework)。
- 高层:使用视觉语言模型(Vision-Language Model, VLM)规划器解析用户意图,跨多个相机视角推理遮挡和高度关系,并生成用于零样本分割(zero-shot segmentation)和掩码跟踪(mask tracking)的目标边界框(target bounding boxes),为下游控制提供结构化空间引导。
- 底层:引入一个手臂-手部特征分离网络(arm-hand Feature Separation Network),将手臂的全局轨迹控制(global trajectory control)与手部基于几何感知的抓握模式选择(geometry-aware grasp mode selection)解耦(decouple),以减少到达(reaching)和抓取(grasping)目标间的特征干扰(feature interference)。
- 控制器进一步整合多视角感知(multi-view perception)、指尖触觉传感(fingertip tactile sensing)和少量恢复演示(recovery demonstrations),以提高对部分可观测性(partial observability)和非标称接触(off-nominal contacts)的鲁棒性(robustness)。
论文的核心创新点在于将分层空间规划与手臂-手部表征解耦相结合,以专门应对分层约束工作空间中的灵巧操作挑战。具体独特之处包括:
- 提出了一个明确区分高层空间意图解析与底层解耦控制的分层框架,而非依赖单视角目标选择。
- 设计了手臂-手部特征分离网络,显式地将手臂的导航任务与手部的抓取任务在特征层面解耦,解决了在空间约束下两者目标可能冲突的问题,这是对现有通常未明确区分两者控制的方法的改进。
- 系统性地整合了多模态感知(多视角视觉、触觉)与少量演示学习,以应对复杂环境中的部分可观测性和意外接触。
论文对该领域的整体贡献是:
- 提出了一个针对分层约束工作空间中灵巧操作的系统性解决方案SpaceDex,证明了结合分层空间规划与手臂-手部表征解耦能有效提升在此类复杂环境中的性能。
- 在包含4个类别超过30个未见物体的100次真实世界试验中,SpaceDex取得了63.0%的成功率,显著优于一个强大的桌面基线方法(39.0%),为在更真实、受限场景中实现泛化灵巧操作提供了新的思路和实证支持。