基于流的无策略更新适应

📝 论文摘要

利用预训练策略、基础模型或人类操作员的先验知识，提供了一种从零开始学习机器人技能的高效替代方案。然而，这些智能体提供的动作往往存在次优、噪声或与特定任务专家行为不一致的问题。我们提出GLOVES——一系列基于流的适应方法，通过将非专家动作向专家动作分布迁移来对其进行修正。GLOVES并非以完全自主性取代智能体控制，而是执行选择性动作级适应，在保留智能体意图的同时提升任务成功率。所学习的流还通过反向流评估提供了天然的内部分布评分机制。我们将该信号用作干预门控：与专家分布一致的动作保持不变，而异常或分布外（OOD）动作则被修正。通过这种方式，仅在必要时提供辅助。GLOVES仅需有限的专家监督，使用少量示范或可复用的成功技能片段。通过学习局部专家动作模式并在执行过程中拼接，GLOVES提供了一个轻量级的共享控制模块，用于跨任务和环境的鲁棒动作适应。代码和演示可在ripl.github.io/GLOVES_web获取。

🎯 研究动机

- 解决从**预训练策略(pre-trained policies)**、**基础模型(foundation models)** 或**人类操作员(human operators)** 获取的动作常为次优、有噪声或与任务专家行为不一致的问题 - 现有方法需要完全替换智能体控制（如全自主系统），缺乏选择性干预的能力 - 研究背景：利用先验知识替代从零学习机器人技能更高效，但非专家动作需要适应才能匹配专家行为

🔧 核心方法

- 提出**GLOVES**，一系列基于**流(flow)** 的适应方法，通过学习从非专家动作分布到专家动作分布的**可逆变换(transport)** 来修正动作 - 利用**反向流评估(reverse flow evaluation)** 计算动作的**分布内评分(in-distribution scoring)**，作为**干预门控(intervention gate)**：对专家分布内的动作直接通过，对异常或**分布外(OOD)** 动作进行修正 - 仅需少量专家监督（少量演示或可复用的成功技能片段），通过在线拼接局部专家动作模式构成轻量级共享控制模块

💡 核心创新

- **选择性动作级适应**：无需更新策略参数，通过流变换局部修正非专家动作，同时保留智能体原始意图 - **内置干预门控机制**：利用流的逆向评估自动识别并仅修正分布外动作，避免不必要的辅助 - **低监督需求**：仅需少量专家示范或成功技能片段即可学习局部动作模式，并通过在线拼接实现跨任务适应 - **轻量级共享控制**：作为一种即插即用的模块，无需修改原有策略即可提升任务成功率

🏆 总体贡献

- 为机器人动作适应提供一种无需**策略更新(policy updates)** 的**基于流(flow-based)** 新范式，实现高效纠偏 - 提出**自适应干预(adaptive intervention)** 框架，在保留智能体控制权的同时提升成功率，减少过度依赖 - 在标准基准和跨环境任务中验证鲁棒性，代码与演示已开源促进社区复现和后续研究

基于流的无策略更新适应
Flow-based Policy Adaptation without Policy Updates

📊 核心分析

基于流的无策略更新适应 Flow-based Policy Adaptation without Policy Updates

📊 核心分析

基于流的无策略更新适应
Flow-based Policy Adaptation without Policy Updates