SpaceDex：分层工作空间中的通用灵巧抓取

📝 论文摘要

在具有遮挡、狭窄间隙和高度相关约束的分层工作空间中，实现高自由度灵巧手的泛化抓取仍然具有挑战性，这些约束远强于开放桌面场景。现有方法大多在相对无遮挡环境中进行评估，通常未明确建模空间约束下手臂导航与手部关节控制的差异化需求。本文提出SpaceDex——一种面向受限三维环境的灵巧操作分层框架。高层级采用视觉语言模型解析用户意图，通过多视角相机推理遮挡与高度关系，生成用于零样本分割与掩码跟踪的目标边界框。该阶段为下游控制提供结构化空间引导，而非依赖单视角目标选择。低层级引入臂-手特征分离网络，将手臂的全局轨迹控制与手部的几何感知抓取模式选择解耦，减少抵达目标与抓取任务间的特征干扰。控制器进一步融合多视角感知、指尖触觉传感及少量恢复演示，提升对部分可观测性和非标接触的鲁棒性。在包含四大类30余种未见物体的100次真实世界实验中，SpaceDex取得63.0%的成功率，显著优于桌面基线方法的39.0%。结果表明：分层空间规划与臂-手表征解耦的结合，能有效提升空间受限环境中的灵巧抓取性能。

🎯 研究动机

该论文旨在解决高自由度(high-degree-of-freedom, DoF)灵巧手在分层工作空间(tiered workspaces)中实现泛化抓取(generalizable grasping)的挑战。研究背景是，与开放桌面场景相比，分层工作空间中存在更强的遮挡(occlusion)、狭窄间隙(narrow clearances)和高度相关约束(height-dependent constraints)，而现有方法大多在遮挡较少的环境中评估，且通常未明确建模在空间约束下手臂导航(arm navigation)与手部关节运动(hand articulation)的不同控制需求。

🔧 核心方法

论文提出了一个名为SpaceDex的分层框架(hierarchical framework)。 - 高层：使用视觉语言模型(Vision-Language Model, VLM)规划器解析用户意图，跨多个相机视角推理遮挡和高度关系，并生成用于零样本分割(zero-shot segmentation)和掩码跟踪(mask tracking)的目标边界框(target bounding boxes)，为下游控制提供结构化空间引导。 - 底层：引入一个手臂-手部特征分离网络(arm-hand Feature Separation Network)，将手臂的全局轨迹控制(global trajectory control)与手部基于几何感知的抓握模式选择(geometry-aware grasp mode selection)解耦(decouple)，以减少到达(reaching)和抓取(grasping)目标间的特征干扰(feature interference)。 - 控制器进一步整合多视角感知(multi-view perception)、指尖触觉传感(fingertip tactile sensing)和少量恢复演示(recovery demonstrations)，以提高对部分可观测性(partial observability)和非标称接触(off-nominal contacts)的鲁棒性(robustness)。

💡 核心创新

论文的核心创新点在于将分层空间规划与手臂-手部表征解耦相结合，以专门应对分层约束工作空间中的灵巧操作挑战。具体独特之处包括： - 提出了一个明确区分高层空间意图解析与底层解耦控制的分层框架，而非依赖单视角目标选择。 - 设计了手臂-手部特征分离网络，显式地将手臂的导航任务与手部的抓取任务在特征层面解耦，解决了在空间约束下两者目标可能冲突的问题，这是对现有通常未明确区分两者控制的方法的改进。 - 系统性地整合了多模态感知（多视角视觉、触觉）与少量演示学习，以应对复杂环境中的部分可观测性和意外接触。

🏆 总体贡献

论文对该领域的整体贡献是： - 提出了一个针对分层约束工作空间中灵巧操作的系统性解决方案SpaceDex，证明了结合分层空间规划与手臂-手部表征解耦能有效提升在此类复杂环境中的性能。 - 在包含4个类别超过30个未见物体的100次真实世界试验中，SpaceDex取得了63.0%的成功率，显著优于一个强大的桌面基线方法(39.0%)，为在更真实、受限场景中实现泛化灵巧操作提供了新的思路和实证支持。

SpaceDex：分层工作空间中的通用灵巧抓取
SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces

📊 核心分析

SpaceDex：分层工作空间中的通用灵巧抓取 SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces

📊 核心分析

SpaceDex：分层工作空间中的通用灵巧抓取
SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces