← 返回论文列表

组合式机器人策略中技能更新的原子探针治理
Atomic-Probe Governance for Skill Updates in Compositional Robot Policies

作者: Xue Qin, Simin Luan, John See 等5人
arXiv: 2604.26689v1
分类: cs.RO, cs.AI
📝 论文摘要
部署机器人系统中的技能库通过微调、新演示或领域自适应不断更新,但现有的类型组合方法(如BLADE、SymSkill、Generative Skill Chaining)将技能库在测试时视为冻结状态,并且未分析当某个技能被替换时组合结果如何变化。我们引入了一种基于配对采样的跨版本交换协议,应用于robosuite操作任务,以表征组合技能学习的这一维度。在双臂销孔装配任务中,我们发现了一种主导技能效应:一个ECM实现了86.7%的原子成功率,而其他所有ECM的成功率均低于或等于26.7%,且该主导ECM是否进入组合会导致成功率变化高达+50个百分点。我们在一个更简单的拾取任务中界定了该效应的边界,该任务中所有原子策略均达到100%饱和,该效应无法定义。进一步在三个任务中,我们发现离策略行为距离指标无法识别主导ECM,排除了自然的廉价预测器。我们提出了一种原子质量探针,以及一种结合每技能探针(零每次决策成本)与选择性组合重新验证(完全成本)的混合选择器,并在144个技能更新决策上刻画了其帕累托前沿。在T6任务上,纯原子探针在零每次决策成本下比完全重新验证低23个百分点(64.6% vs 87.5%的理想匹配);使用m=10的混合选择器在完全重新验证成本的46%下将差距缩小至约12个百分点。在144个事件的跨任务平均值下,在混合理想系统条件下,纯原子探针与完全重新验证的差距在3个百分点以内。据我们所知,该原子质量探针是首个有原则、可部署的原语,用于组合机器人策略中的技能更新治理。

📊 核心分析

🎯 研究动机
- 现有**组合式机器人策略(compositional robot policies)** 方法(如BLADE、SymSkill、Generative Skill Chaining)将技能库视为测试时冻结的,未分析当某个技能被替换时组合结果如何变化 - 在双臂插销任务中发现**主导技能效应(dominant-skill effect)**:一个**基元控制模块(ECM)** 成功率达86.7%,而其他每个ECM≤26.7%,该ECM是否进入组合导致成功率变化高达+50个百分点 - 离线策略的行为距离指标无法识别主导ECM,缺乏低成本、可部署的预测器来指导技能更新
🔧 核心方法
- 在**robosuite操作任务(robosuite manipulation tasks)** 上引入**配对采样跨版本交换协议(paired-sampling cross-version swap protocol)**,系统探究技能替换对组合结果的影响 - 提出**原子质量探针(atomic-quality probe)**,以每个技能为单位进行零决策成本的探针评估 - 设计**混合选择器(Hybrid Selector)**,结合每个技能的探针(零决策成本)与选择性组合再验证(全成本),在144个技能更新决策上刻画**帕累托前沿(Pareto frontier)**
💡 核心创新
- **首次提出** 用于**组合机器人策略(compositional robot policies)** 中技能更新治理的**原子质量探针(atomic-quality probe)**,是第一个有原则、可部署的基元 - 发现并表征了**主导技能效应(dominant-skill effect)**,揭示了技能库中单一基元对组合性能的支配性影响 - 实现零决策成本下接近全再验证的性能:在T6任务上,原子探针仅比全再验证低23个百分点(64.6% vs 87.5%),混合选择器(m=10)将差距缩小至约12个百分点,成本仅为全再验证的46%;跨任务平均时,原子探针在混合基准限制下差距缩小至3个百分点以内
🏆 总体贡献
- 填补了组合策略中技能更新时组合结果变化分析的空白,为**技能更新治理(skill-update governance)** 提供了全新范式 - 通过三个不同难度任务(双臂插销、简单拾取等)的系统实验,验证了方法的有效性与边界条件 - 提出可部署的**原子质量探针(atomic-quality probe)** 及其与选择性再验证结合的**混合选择器(Hybrid Selector)**,为实际机器人系统持续更新技能库提供了高效、低成本的决策工具