← 返回论文列表

基于流的无策略更新适应
Flow-based Policy Adaptation without Policy Updates

作者: Luzhe Sun, Jingtian Ji, Haoran Chen 等5人
arXiv: 2606.06461v1
分类: cs.RO
📝 论文摘要
利用预训练策略、基础模型或人类操作员的先验知识,提供了一种从零开始学习机器人技能的高效替代方案。然而,这些智能体提供的动作往往存在次优、噪声或与特定任务专家行为不一致的问题。我们提出GLOVES——一系列基于流的适应方法,通过将非专家动作向专家动作分布迁移来对其进行修正。GLOVES并非以完全自主性取代智能体控制,而是执行选择性动作级适应,在保留智能体意图的同时提升任务成功率。所学习的流还通过反向流评估提供了天然的内部分布评分机制。我们将该信号用作干预门控:与专家分布一致的动作保持不变,而异常或分布外(OOD)动作则被修正。通过这种方式,仅在必要时提供辅助。GLOVES仅需有限的专家监督,使用少量示范或可复用的成功技能片段。通过学习局部专家动作模式并在执行过程中拼接,GLOVES提供了一个轻量级的共享控制模块,用于跨任务和环境的鲁棒动作适应。代码和演示可在ripl.github.io/GLOVES_web获取。

📊 核心分析

🎯 研究动机
- 解决从**预训练策略(pre-trained policies)**、**基础模型(foundation models)** 或**人类操作员(human operators)** 获取的动作常为次优、有噪声或与任务专家行为不一致的问题 - 现有方法需要完全替换智能体控制(如全自主系统),缺乏选择性干预的能力 - 研究背景:利用先验知识替代从零学习机器人技能更高效,但非专家动作需要适应才能匹配专家行为
🔧 核心方法
- 提出**GLOVES**,一系列基于**流(flow)** 的适应方法,通过学习从非专家动作分布到专家动作分布的**可逆变换(transport)** 来修正动作 - 利用**反向流评估(reverse flow evaluation)** 计算动作的**分布内评分(in-distribution scoring)**,作为**干预门控(intervention gate)**:对专家分布内的动作直接通过,对异常或**分布外(OOD)** 动作进行修正 - 仅需少量专家监督(少量演示或可复用的成功技能片段),通过在线拼接局部专家动作模式构成轻量级共享控制模块
💡 核心创新
- **选择性动作级适应**:无需更新策略参数,通过流变换局部修正非专家动作,同时保留智能体原始意图 - **内置干预门控机制**:利用流的逆向评估自动识别并仅修正分布外动作,避免不必要的辅助 - **低监督需求**:仅需少量专家示范或成功技能片段即可学习局部动作模式,并通过在线拼接实现跨任务适应 - **轻量级共享控制**:作为一种即插即用的模块,无需修改原有策略即可提升任务成功率
🏆 总体贡献
- 为机器人动作适应提供一种无需**策略更新(policy updates)** 的**基于流(flow-based)** 新范式,实现高效纠偏 - 提出**自适应干预(adaptive intervention)** 框架,在保留智能体控制权的同时提升成功率,减少过度依赖 - 在标准基准和跨环境任务中验证鲁棒性,代码与演示已开源促进社区复现和后续研究