- 现有**视觉-语言-动作(VLA)** 模型在真实世界灵巧操作中面临高维手部控制和复合执行错误,导致动作生成与实际执行之间存在差距
- 强化学习后训练对于弥合这一差距至关重要,但高维灵巧探索在真实环境中会引发时间不一致性(temporal inconsistency)、样本低效(sample inefficiency)和硬件风险
- 研究背景:VLA模型虽然能实现视觉语言理解到机器人操作的端到端映射,但在灵巧操作的任务约束下仍难以直接部署
- 提出**BORA** 框架,这是一个离线到在线(offline-to-online)的RL后训练框架,专门针对真实世界灵巧VLA模型设计
- 离线阶段:构建一个**critic**,同时接受VLM的认知认知token(cognition tokens)和动作块(action chunks)作为输入,实现基于动作条件的值指导(action-conditioned value guidance),评估超出视觉上下文的灵巧手部动作
- 在线阶段:冻结VLA基础模型,引入轻量级**人机循环(Human-in-the-Loop, HiL)块级残差适应(block-wise residual adaptation)** 机制,通过继承离线critic并使用干预驱动奖励(intervention-driven rewards)来纠正真实执行误差和离线学习意图
- **首创性**:首次将离线critic与在线块级残差适应结合,在真实环境中实现灵巧VLA模型的RL后训练
- **离线critic设计创新**:利用VLM的认知token和动作块共同作为输入,提供超越纯视觉的细粒度值评估,这是现有方法未实现的
- **在线适应机制创新**:通过冻结VLA基础并引入人机循环的块级残差适应,既保留了预训练策略的稳定先验,又有效纠正执行差异,避免了高维探索的时间不一致和硬件风险
- 为灵巧操作提供了**离线到在线RL后训练** 的有效范例,解决了VLA模型从视觉理解到物理执行的关键瓶颈
- 在5个复杂真实灵巧任务上显著超越纯模仿学习和传统解耦RL基线,标准设置下平均成功率提升**33%**,未见物体泛化提升**43%**
- 提出的人机循环残差适应机制降低了真实RL部署的样本复杂度和硬件风险,促进了灵巧VLA的实用化