高效人类引导VLA适应的统一噪声导向

📝 论文摘要

基于扩散的视觉-语言-动作（VLA）模型已成为机器人操作任务中的强先验，但将其适配到真实世界分布仍具挑战性。具体而言，在机器人本体上进行的强化学习（RL）成本高且耗时，因此有效的适配依赖于在有限真实世界交互预算内实现高效策略改进。噪声空间强化学习通过保持预训练VLA固定作为去噪生成器，仅更新预测噪声的轻量化动作器来降低成本。然而，由于自主探索效率低下，其性能仍受限制。人类纠正性干预可减少这一探索负担，但此类干预自然在动作空间中进行，而噪声空间微调需要对噪声变量进行监督。针对这些挑战，我们提出UniSteer，一种统一噪声导向框架，通过近似动作到噪声的逆变换，将人类纠正指导与噪声空间强化学习相结合。给定人类纠正动作，UniSteer逆变换冻结的流匹配解码器以恢复噪声目标，从而为同一噪声动作器提供监督指导，该动作器同时通过强化学习进行优化。在多种操作任务的真实世界实验中，UniSteer的适配效率优于强噪声空间强化学习和动作空间人类参与基线方法，在四个真实世界适配任务中平均在66分钟内将成功率从20%提升至90%。

🎯 研究动机

- 基于扩散的**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人操作中作为强先验，但适应真实世界分布仍面临挑战 - 机上**强化学习(reinforcement learning, RL)** 昂贵耗时，有效适应需在有限交互预算内高效改进策略 - 现有**噪声空间RL(noise-space RL)** 虽保持预训练VLA固定、仅更新轻量级actor，但自主探索效率低 - 人类纠正性干预天然在**动作空间(action space)** 提供，而噪声空间微调需要**噪声变量(noise variable)** 的监督，两者不匹配

🔧 核心方法

- 提出**UniSteer** 框架：通过**近似动作到噪声的反演(approximate action-to-noise inversion)**，将人类纠正引导与噪声空间RL统一 - 给定人类纠正动作，**反演冻结的流匹配解码器(frozen flow-matching decoder)** 以恢复对应的噪声目标，为噪声actor提供监督信号 - 同一噪声actor同时通过**强化学习(RL)** 进行优化，结合人类纠正的监督和自主探索的奖励 - 保持预训练VLA固定，仅更新轻量级噪声预测actor，维持低成本适应

💡 核心创新

- **首创统一框架**：首次将人类纠正性干预（动作空间）与噪声空间RL有效结合，解决两类信号空间不匹配的问题 - **动作到噪声反演方法**：利用预训练流匹配解码器的可逆性，实现从人类动作到噪声目标的近似映射，无需额外网络或复杂变换 - **协同优化**：同一个噪声actor同时接收来自人类纠正的**监督学习(supervised learning)** 信号和来自RL的**强化信号(reinforcement signal)**，实现高效探索与利用平衡 - **极低交互成本**：相比纯噪声空间RL和动作空间人类在环基线，在真实世界中平均66分钟内将成功率从20%提升至90%

🏆 总体贡献

- 提出**UniSteer** 框架，为基于扩散的VLA模型的高效适应提供了一种新颖的**人类在环(human-in-the-loop)** 范式 - 在多种真实操作任务上验证了显著加速：平均66分钟将成功率从20%提升至90%，超越强基线 - 揭示了噪声空间RL与人类纠正之间通过动作空间反演协同的可能性，为后续**高效策略适应(efficient policy adaptation)** 研究奠定基础

高效人类引导VLA适应的统一噪声导向
Unified Noise Steering for Efficient Human-Guided VLA Adaptation

📊 核心分析

高效人类引导VLA适应的统一噪声导向 Unified Noise Steering for Efficient Human-Guided VLA Adaptation

📊 核心分析

高效人类引导VLA适应的统一噪声导向
Unified Noise Steering for Efficient Human-Guided VLA Adaptation