← 返回论文列表

PHASER:面向视觉-语言-动作模型的相位感知与语义经验回放
PHASER:面向视觉-语言-动作模型的相位感知与语义经验回放

作者: Ziyang Chen, Shaoguang Wang, Weiyu Guo 等8人
arXiv: 2606.03598v1
分类: cs.RO, cs.AI, cs.CV
📝 论文摘要
视觉-语言-动作(VLA)模型在语言条件机器人操作任务中取得了显著成功。然而,在开放环境中部署这些模型需要持续获取新技能,这一过程不可避免地会引发对已学习行为的严重灾难性遗忘。尽管经验回放(ER)是一种标准的缓解策略,但朴素均匀采样的方式从根本上与操作轨迹的时间特征不一致:它系统性地低估了短暂但因果关键的子技能,导致相位饥饿,并完全忽略了历史任务中不同程度的遗忘。为克服这些局限,我们提出PHASER——一种与架构无关的持续学习框架。PHASER采用基于相位中心化的容量分配策略,为所有子技能提供均衡的记忆支持,同时结合多模态干扰路由机制,动态优先处理遗忘风险较高的历史相位。此外,为实现完全自主的终身适应,我们集成了Auto-PC——一种轻量级流水线,将无监督动作信号变点检测与基于VLM的语义验证相结合,无需大量人工标注即可提取时间边界。在LIBERO持续学习套件上基于三种VLA骨干网络的评估表明,PHASER相较同等预算的经验回放方法,平均成功率(ASR)提升高达31%,并在LIBERO-Goal CL设定下达到87.8%的最终ASR。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在语言条件机器人操作中表现优异,但部署在开放环境时需持续获取新技能,导致严重的**灾难性遗忘(catastrophic forgetting)** - 标准**经验重放(experience replay, ER)** 采用均匀采样,根本性地偏离了操纵轨迹的时间特性,系统性欠采样短暂但因果关键的子技能,引发**阶段饥饿(phase starvation)** - 均匀采样完全忽略历史任务间遗忘程度的差异,无法保护易遗忘的旧知识
🔧 核心方法
- 提出**PHASER** 框架,一种架构无关的持续学习框架,包含两个核心组件:**阶段中心容量分配(phase-centric capacity allocation)** 和**多模态干扰路由(multi-modal interference routing)** - **阶段中心容量分配** 保证所有子技能获得相等的记忆存储支持;**多模态干扰路由** 动态优先选择遗忘风险高的历史阶段进行重放 - 集成**Auto-PC** 轻量级流水线,结合**无监督动作信号变化点检测(unsupervised action-signal change-point detection)** 与**视觉-语言模型(Visual-Language Model, VLM)语义验证** 自动提取时间边界,无需密集人工监督
💡 核心创新
- **阶段感知(phase-aware)重放**:首次将操纵轨迹分解为因果子技能阶段,并保证各阶段等量记忆容量,解决了传统均匀采样的阶段饥饿问题 - **多模态干扰路由**:基于多模态特征动态评估不同历史阶段的遗忘风险,实现自适应优先级重放,而非静态均匀采样 - **Auto-PC自动边界提取**:结合无监督信号变化点检测和VLM语义验证,免除了逐段手工标注的繁琐工作,实现完全自主的终身适应
🏆 总体贡献
- 为**语言条件机器人持续学习** 提供了一种新颖的**阶段感知经验重放** 范式,显著缓解灾难性遗忘 - 在**LIBERO持续学习套件** 上评估三种VLA骨干网络,**平均成功率(ASR)** 最高提升31%,在LIBERO-Goal CL设置中达到**87.8%的最终ASR** - 框架**架构无关**,可即插即用于现有VLA模型,推动了VLA模型在开放场景的实用化部署