- 解决从**预训练策略(pre-trained policies)**、**基础模型(foundation models)** 或**人类操作员(human operators)** 获取的动作常为次优、有噪声或与任务专家行为不一致的问题
- 现有方法需要完全替换智能体控制(如全自主系统),缺乏选择性干预的能力
- 研究背景:利用先验知识替代从零学习机器人技能更高效,但非专家动作需要适应才能匹配专家行为
- 提出**GLOVES**,一系列基于**流(flow)** 的适应方法,通过学习从非专家动作分布到专家动作分布的**可逆变换(transport)** 来修正动作
- 利用**反向流评估(reverse flow evaluation)** 计算动作的**分布内评分(in-distribution scoring)**,作为**干预门控(intervention gate)**:对专家分布内的动作直接通过,对异常或**分布外(OOD)** 动作进行修正
- 仅需少量专家监督(少量演示或可复用的成功技能片段),通过在线拼接局部专家动作模式构成轻量级共享控制模块
- **选择性动作级适应**:无需更新策略参数,通过流变换局部修正非专家动作,同时保留智能体原始意图
- **内置干预门控机制**:利用流的逆向评估自动识别并仅修正分布外动作,避免不必要的辅助
- **低监督需求**:仅需少量专家示范或成功技能片段即可学习局部动作模式,并通过在线拼接实现跨任务适应
- **轻量级共享控制**:作为一种即插即用的模块,无需修改原有策略即可提升任务成功率
- 为机器人动作适应提供一种无需**策略更新(policy updates)** 的**基于流(flow-based)** 新范式,实现高效纠偏
- 提出**自适应干预(adaptive intervention)** 框架,在保留智能体控制权的同时提升成功率,减少过度依赖
- 在标准基准和跨环境任务中验证鲁棒性,代码与演示已开源促进社区复现和后续研究