PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放

📝 论文摘要

视觉-语言-动作（VLA）模型在语言条件机器人操作任务中取得了显著成功。然而，在开放环境中部署这些模型需要持续获取新技能，这一过程不可避免地会引发对已学习行为的严重灾难性遗忘。尽管经验回放（ER）是一种标准的缓解策略，但朴素均匀采样的方式从根本上与操作轨迹的时间特征不一致：它系统性地低估了短暂但因果关键的子技能，导致相位饥饿，并完全忽略了历史任务中不同程度的遗忘。为克服这些局限，我们提出PHASER——一种与架构无关的持续学习框架。PHASER采用基于相位中心化的容量分配策略，为所有子技能提供均衡的记忆支持，同时结合多模态干扰路由机制，动态优先处理遗忘风险较高的历史相位。此外，为实现完全自主的终身适应，我们集成了Auto-PC——一种轻量级流水线，将无监督动作信号变点检测与基于VLM的语义验证相结合，无需大量人工标注即可提取时间边界。在LIBERO持续学习套件上基于三种VLA骨干网络的评估表明，PHASER相较同等预算的经验回放方法，平均成功率（ASR）提升高达31%，并在LIBERO-Goal CL设定下达到87.8%的最终ASR。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在语言条件机器人操作中表现优异，但部署在开放环境时需持续获取新技能，导致严重的**灾难性遗忘(catastrophic forgetting)** - 标准**经验重放(experience replay, ER)** 采用均匀采样，根本性地偏离了操纵轨迹的时间特性，系统性欠采样短暂但因果关键的子技能，引发**阶段饥饿(phase starvation)** - 均匀采样完全忽略历史任务间遗忘程度的差异，无法保护易遗忘的旧知识

🔧 核心方法

- 提出**PHASER** 框架，一种架构无关的持续学习框架，包含两个核心组件：**阶段中心容量分配(phase-centric capacity allocation)** 和**多模态干扰路由(multi-modal interference routing)** - **阶段中心容量分配** 保证所有子技能获得相等的记忆存储支持；**多模态干扰路由** 动态优先选择遗忘风险高的历史阶段进行重放 - 集成**Auto-PC** 轻量级流水线，结合**无监督动作信号变化点检测(unsupervised action-signal change-point detection)** 与**视觉-语言模型(Visual-Language Model, VLM)语义验证** 自动提取时间边界，无需密集人工监督

💡 核心创新

- **阶段感知(phase-aware)重放**：首次将操纵轨迹分解为因果子技能阶段，并保证各阶段等量记忆容量，解决了传统均匀采样的阶段饥饿问题 - **多模态干扰路由**：基于多模态特征动态评估不同历史阶段的遗忘风险，实现自适应优先级重放，而非静态均匀采样 - **Auto-PC自动边界提取**：结合无监督信号变化点检测和VLM语义验证，免除了逐段手工标注的繁琐工作，实现完全自主的终身适应

🏆 总体贡献

- 为**语言条件机器人持续学习** 提供了一种新颖的**阶段感知经验重放** 范式，显著缓解灾难性遗忘 - 在**LIBERO持续学习套件** 上评估三种VLA骨干网络，**平均成功率(ASR)** 最高提升31%，在LIBERO-Goal CL设置中达到**87.8%的最终ASR** - 框架**架构无关**，可即插即用于现有VLA模型，推动了VLA模型在开放场景的实用化部署

PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放
PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放

📊 核心分析

PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放 PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放

📊 核心分析

PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放
PHASER：面向视觉-语言-动作模型的相位感知与语义经验回放