组合式机器人策略中技能更新的原子探针治理

📝 论文摘要

部署机器人系统中的技能库通过微调、新演示或领域自适应不断更新，但现有的类型组合方法（如BLADE、SymSkill、Generative Skill Chaining）将技能库在测试时视为冻结状态，并且未分析当某个技能被替换时组合结果如何变化。我们引入了一种基于配对采样的跨版本交换协议，应用于robosuite操作任务，以表征组合技能学习的这一维度。在双臂销孔装配任务中，我们发现了一种主导技能效应：一个ECM实现了86.7%的原子成功率，而其他所有ECM的成功率均低于或等于26.7%，且该主导ECM是否进入组合会导致成功率变化高达+50个百分点。我们在一个更简单的拾取任务中界定了该效应的边界，该任务中所有原子策略均达到100%饱和，该效应无法定义。进一步在三个任务中，我们发现离策略行为距离指标无法识别主导ECM，排除了自然的廉价预测器。我们提出了一种原子质量探针，以及一种结合每技能探针（零每次决策成本）与选择性组合重新验证（完全成本）的混合选择器，并在144个技能更新决策上刻画了其帕累托前沿。在T6任务上，纯原子探针在零每次决策成本下比完全重新验证低23个百分点（64.6% vs 87.5%的理想匹配）；使用m=10的混合选择器在完全重新验证成本的46%下将差距缩小至约12个百分点。在144个事件的跨任务平均值下，在混合理想系统条件下，纯原子探针与完全重新验证的差距在3个百分点以内。据我们所知，该原子质量探针是首个有原则、可部署的原语，用于组合机器人策略中的技能更新治理。

🎯 研究动机

- 现有**组合式机器人策略(compositional robot policies)** 方法（如BLADE、SymSkill、Generative Skill Chaining）将技能库视为测试时冻结的，未分析当某个技能被替换时组合结果如何变化 - 在双臂插销任务中发现**主导技能效应(dominant-skill effect)**：一个**基元控制模块(ECM)** 成功率达86.7%，而其他每个ECM≤26.7%，该ECM是否进入组合导致成功率变化高达+50个百分点 - 离线策略的行为距离指标无法识别主导ECM，缺乏低成本、可部署的预测器来指导技能更新

🔧 核心方法

- 在**robosuite操作任务(robosuite manipulation tasks)** 上引入**配对采样跨版本交换协议(paired-sampling cross-version swap protocol)**，系统探究技能替换对组合结果的影响 - 提出**原子质量探针(atomic-quality probe)**，以每个技能为单位进行零决策成本的探针评估 - 设计**混合选择器(Hybrid Selector)**，结合每个技能的探针（零决策成本）与选择性组合再验证（全成本），在144个技能更新决策上刻画**帕累托前沿(Pareto frontier)**

💡 核心创新

- **首次提出** 用于**组合机器人策略(compositional robot policies)** 中技能更新治理的**原子质量探针(atomic-quality probe)**，是第一个有原则、可部署的基元 - 发现并表征了**主导技能效应(dominant-skill effect)**，揭示了技能库中单一基元对组合性能的支配性影响 - 实现零决策成本下接近全再验证的性能：在T6任务上，原子探针仅比全再验证低23个百分点（64.6% vs 87.5%），混合选择器（m=10）将差距缩小至约12个百分点，成本仅为全再验证的46%；跨任务平均时，原子探针在混合基准限制下差距缩小至3个百分点以内

🏆 总体贡献

- 填补了组合策略中技能更新时组合结果变化分析的空白，为**技能更新治理(skill-update governance)** 提供了全新范式 - 通过三个不同难度任务（双臂插销、简单拾取等）的系统实验，验证了方法的有效性与边界条件 - 提出可部署的**原子质量探针(atomic-quality probe)** 及其与选择性再验证结合的**混合选择器(Hybrid Selector)**，为实际机器人系统持续更新技能库提供了高效、低成本的决策工具

组合式机器人策略中技能更新的原子探针治理
Atomic-Probe Governance for Skill Updates in Compositional Robot Policies

📊 核心分析

组合式机器人策略中技能更新的原子探针治理 Atomic-Probe Governance for Skill Updates in Compositional Robot Policies

📊 核心分析

组合式机器人策略中技能更新的原子探针治理
Atomic-Probe Governance for Skill Updates in Compositional Robot Policies