← 返回论文列表

SpaceDex:分层工作空间中的通用灵巧抓取
SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces

作者: Wensheng Wang, Chuanjun Guo, Wei Wei 等5人
arXiv: 2604.17888v1
分类: cs.RO
📝 论文摘要
在具有遮挡、狭窄间隙和高度相关约束的分层工作空间中,实现高自由度灵巧手的泛化抓取仍然具有挑战性,这些约束远强于开放桌面场景。现有方法大多在相对无遮挡环境中进行评估,通常未明确建模空间约束下手臂导航与手部关节控制的差异化需求。本文提出SpaceDex——一种面向受限三维环境的灵巧操作分层框架。高层级采用视觉语言模型解析用户意图,通过多视角相机推理遮挡与高度关系,生成用于零样本分割与掩码跟踪的目标边界框。该阶段为下游控制提供结构化空间引导,而非依赖单视角目标选择。低层级引入臂-手特征分离网络,将手臂的全局轨迹控制与手部的几何感知抓取模式选择解耦,减少抵达目标与抓取任务间的特征干扰。控制器进一步融合多视角感知、指尖触觉传感及少量恢复演示,提升对部分可观测性和非标接触的鲁棒性。在包含四大类30余种未见物体的100次真实世界实验中,SpaceDex取得63.0%的成功率,显著优于桌面基线方法的39.0%。结果表明:分层空间规划与臂-手表征解耦的结合,能有效提升空间受限环境中的灵巧抓取性能。

📊 核心分析

🎯 研究动机
该论文旨在解决高自由度(high-degree-of-freedom, DoF)灵巧手在分层工作空间(tiered workspaces)中实现泛化抓取(generalizable grasping)的挑战。研究背景是,与开放桌面场景相比,分层工作空间中存在更强的遮挡(occlusion)、狭窄间隙(narrow clearances)和高度相关约束(height-dependent constraints),而现有方法大多在遮挡较少的环境中评估,且通常未明确建模在空间约束下手臂导航(arm navigation)与手部关节运动(hand articulation)的不同控制需求。
🔧 核心方法
论文提出了一个名为SpaceDex的分层框架(hierarchical framework)。 - 高层:使用视觉语言模型(Vision-Language Model, VLM)规划器解析用户意图,跨多个相机视角推理遮挡和高度关系,并生成用于零样本分割(zero-shot segmentation)和掩码跟踪(mask tracking)的目标边界框(target bounding boxes),为下游控制提供结构化空间引导。 - 底层:引入一个手臂-手部特征分离网络(arm-hand Feature Separation Network),将手臂的全局轨迹控制(global trajectory control)与手部基于几何感知的抓握模式选择(geometry-aware grasp mode selection)解耦(decouple),以减少到达(reaching)和抓取(grasping)目标间的特征干扰(feature interference)。 - 控制器进一步整合多视角感知(multi-view perception)、指尖触觉传感(fingertip tactile sensing)和少量恢复演示(recovery demonstrations),以提高对部分可观测性(partial observability)和非标称接触(off-nominal contacts)的鲁棒性(robustness)。
💡 核心创新
论文的核心创新点在于将分层空间规划与手臂-手部表征解耦相结合,以专门应对分层约束工作空间中的灵巧操作挑战。具体独特之处包括: - 提出了一个明确区分高层空间意图解析与底层解耦控制的分层框架,而非依赖单视角目标选择。 - 设计了手臂-手部特征分离网络,显式地将手臂的导航任务与手部的抓取任务在特征层面解耦,解决了在空间约束下两者目标可能冲突的问题,这是对现有通常未明确区分两者控制的方法的改进。 - 系统性地整合了多模态感知(多视角视觉、触觉)与少量演示学习,以应对复杂环境中的部分可观测性和意外接触。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出了一个针对分层约束工作空间中灵巧操作的系统性解决方案SpaceDex,证明了结合分层空间规划与手臂-手部表征解耦能有效提升在此类复杂环境中的性能。 - 在包含4个类别超过30个未见物体的100次真实世界试验中,SpaceDex取得了63.0%的成功率,显著优于一个强大的桌面基线方法(39.0%),为在更真实、受限场景中实现泛化灵巧操作提供了新的思路和实证支持。