- 基于扩散的**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人操作中作为强先验,但适应真实世界分布仍面临挑战
- 机上**强化学习(reinforcement learning, RL)** 昂贵耗时,有效适应需在有限交互预算内高效改进策略
- 现有**噪声空间RL(noise-space RL)** 虽保持预训练VLA固定、仅更新轻量级actor,但自主探索效率低
- 人类纠正性干预天然在**动作空间(action space)** 提供,而噪声空间微调需要**噪声变量(noise variable)** 的监督,两者不匹配
- 提出**UniSteer** 框架:通过**近似动作到噪声的反演(approximate action-to-noise inversion)**,将人类纠正引导与噪声空间RL统一
- 给定人类纠正动作,**反演冻结的流匹配解码器(frozen flow-matching decoder)** 以恢复对应的噪声目标,为噪声actor提供监督信号
- 同一噪声actor同时通过**强化学习(RL)** 进行优化,结合人类纠正的监督和自主探索的奖励
- 保持预训练VLA固定,仅更新轻量级噪声预测actor,维持低成本适应
- **首创统一框架**:首次将人类纠正性干预(动作空间)与噪声空间RL有效结合,解决两类信号空间不匹配的问题
- **动作到噪声反演方法**:利用预训练流匹配解码器的可逆性,实现从人类动作到噪声目标的近似映射,无需额外网络或复杂变换
- **协同优化**:同一个噪声actor同时接收来自人类纠正的**监督学习(supervised learning)** 信号和来自RL的**强化信号(reinforcement signal)**,实现高效探索与利用平衡
- **极低交互成本**:相比纯噪声空间RL和动作空间人类在环基线,在真实世界中平均66分钟内将成功率从20%提升至90%
- 提出**UniSteer** 框架,为基于扩散的VLA模型的高效适应提供了一种新颖的**人类在环(human-in-the-loop)** 范式
- 在多种真实操作任务上验证了显著加速:平均66分钟将成功率从20%提升至90%,超越强基线
- 揭示了噪声空间RL与人类纠正之间通过动作空间反演协同的可能性,为后续**高效策略适应(efficient policy adaptation)** 研究奠定基础