VLA模型能否从真实世界数据中持续学习而不遗忘？

📝 论文摘要

视觉-语言-动作（VLA）模型为通用机器人技术提供了有前景的基础。然而，它们在真实场景中的成功部署需要具备持续获取新技能同时保留已习得行为的能力。尽管开创性研究已在狭窄的模拟环境中探索了VLA模型的持续学习，但在现实条件下这一挑战仍鲜有研究。为弥补这一不足，我们构建了一个由四个顺序操作任务组成的真实持续学习数据集，涵盖刚体拾放、接触式按压和可变形物体折叠。利用该数据集，我们进行了全面实验，发现VLA模型在从异构真实世界演示中持续学习时会遭受显著的灾难性遗忘。随后，我们系统性地评估了经验回放，并揭示了决定其成功的关键实现因素。总之，本研究首次对真实世界持续VLA学习进行了实证研究，并为部署长效机器人策略提供了实践指导。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在现实世界场景中需要持续学习新技能，同时保留已学行为 - 此前对VLA模型的连续学习研究主要局限于狭窄的模拟环境，缺乏在真实条件下的探索 - VLA模型在处理异质真实世界演示时会出现严重的**灾难性遗忘(catastrophic forgetting)** 问题

🔧 核心方法

- 构建了一个**真实世界连续学习数据集(real-world continual learning dataset)**，包含四个连续操作任务：刚性物体抓取放置、接触式按压、可变形物体折叠 - 在该数据集上进行**全面实验(comprehensive experiments)**，系统评估VLA模型在依次学习不同任务时的遗忘程度 - 采用**经验重放(experience replay)** 策略，并系统性地揭示决定其成功的关键实现因素

💡 核心创新

- **首次实证研究(first empirical study)**：针对真实世界条件下的VLA连续学习问题，而非以往局限于模拟环境 - **真实数据构建**：创建包含异质任务（刚体、接触、可变形物体）的真实连续学习基准数据集 - **关键因素发现**：揭示了经验重放方法在真实场景中有效缓解灾难性遗忘的关键实施因素

🏆 总体贡献

- 提供了**首个真实世界VLA连续学习的实证研究(first empirical study of real-world continual VLA learning)** - 构建并开源了一个包含四个连续操作任务的真实世界基准数据集 - 为在现实环境中部署**长期机器人策略(long-lived robot policies)** 提供了实践指导

VLA模型能否从真实世界数据中持续学习而不遗忘？
Can VLA Models Learn from Real-World Data Continually without Forgetting?

📊 核心分析

VLA模型能否从真实世界数据中持续学习而不遗忘？ Can VLA Models Learn from Real-World Data Continually without Forgetting?

📊 核心分析

VLA模型能否从真实世界数据中持续学习而不遗忘？
Can VLA Models Learn from Real-World Data Continually without Forgetting?