← 返回论文列表

BORA:连接离线强化学习与在线残差自适应,用于现实世界灵巧VLA模型
BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

作者: Zhongxi Chen, Yifan Han, Yanming Shao 等8人
arXiv: 2605.30226v1
分类: cs.RO, cs.AI
📝 论文摘要
视觉-语言-动作(VLA)模型已成为将视觉语言理解融入真实机器人操作的一种有前景的范式。然而,由于高维手部控制和复合执行误差,灵巧操作对VLA策略仍然具有挑战性,这使得真实世界的强化学习后训练对于弥合视觉引导的动作生成与物理可靠的灵巧执行之间的差距至关重要。然而,高维的灵巧探索常常触发真实世界中的时间不一致性、样本低效性和硬件风险。为应对这些挑战,我们提出BORA,一个为真实世界灵巧VLA模型设计的离策略到在策略的强化学习后训练框架。在离策略阶段,BORA构建了一个批评者,其输入同时包含VLM的认知令牌和动作块。这一设计实现了基于动作条件的值指导,使批评者能够评估超越视觉上下文的灵巧手部运动。在随后的在策略阶段,BORA冻结VLA基座,并引入一种轻量级的人机协作(HiL)块级残差自适应机制,以缓解真实世界的执行误差,并在实际物理环境中进一步修正离策略学习的意图。通过继承离策略批评者并采用干预驱动的奖励,BORA有效纠正了执行偏差,适应了真实世界的物理变化,同时将预训练策略作为稳定的先验保持。在五个复杂的真实世界灵巧任务上的广泛评估表明,BORA显著优于纯模仿学习和传统的解耦强化学习基线,在标准设置下平均成功率绝对提升33%,在未见物体泛化中提升高达43%。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(VLA)** 模型在真实世界灵巧操作中面临高维手部控制和复合执行错误,导致动作生成与实际执行之间存在差距 - 强化学习后训练对于弥合这一差距至关重要,但高维灵巧探索在真实环境中会引发时间不一致性(temporal inconsistency)、样本低效(sample inefficiency)和硬件风险 - 研究背景:VLA模型虽然能实现视觉语言理解到机器人操作的端到端映射,但在灵巧操作的任务约束下仍难以直接部署
🔧 核心方法
- 提出**BORA** 框架,这是一个离线到在线(offline-to-online)的RL后训练框架,专门针对真实世界灵巧VLA模型设计 - 离线阶段:构建一个**critic**,同时接受VLM的认知认知token(cognition tokens)和动作块(action chunks)作为输入,实现基于动作条件的值指导(action-conditioned value guidance),评估超出视觉上下文的灵巧手部动作 - 在线阶段:冻结VLA基础模型,引入轻量级**人机循环(Human-in-the-Loop, HiL)块级残差适应(block-wise residual adaptation)** 机制,通过继承离线critic并使用干预驱动奖励(intervention-driven rewards)来纠正真实执行误差和离线学习意图
💡 核心创新
- **首创性**:首次将离线critic与在线块级残差适应结合,在真实环境中实现灵巧VLA模型的RL后训练 - **离线critic设计创新**:利用VLM的认知token和动作块共同作为输入,提供超越纯视觉的细粒度值评估,这是现有方法未实现的 - **在线适应机制创新**:通过冻结VLA基础并引入人机循环的块级残差适应,既保留了预训练策略的稳定先验,又有效纠正执行差异,避免了高维探索的时间不一致和硬件风险
🏆 总体贡献
- 为灵巧操作提供了**离线到在线RL后训练** 的有效范例,解决了VLA模型从视觉理解到物理执行的关键瓶颈 - 在5个复杂真实灵巧任务上显著超越纯模仿学习和传统解耦RL基线,标准设置下平均成功率提升**33%**,未见物体泛化提升**43%** - 提出的人机循环残差适应机制降低了真实RL部署的样本复杂度和硬件风险,促进了灵巧VLA的实用化