- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在具身任务中依赖模仿学习,数据需求量大、泛化性不足
- 使用**强化学习(reinforcement learning)** 优化VLA模型时,面临**稀疏监督(sparse supervision)** 和**长程操作(long-horizon manipulation)** 的奖励设计困难
- 手动设计奖励信号耗时且难以保证有效性,亟需一种自动化的**细粒度值估计(fine-grained value estimation)** 方法
- 提出**Feat2Go** 框架,首先从预训练**视觉世界模型(visual world model)** 中提取连续进度目标:通过测量当前观测与子目标状态的**补丁级相似性(patch-level similarity)**,并利用**趋势聚类(trend-based clustering)** 将回合划分为语义阶段
- 训练一个**具身价值模型(embodied value model)**,以当前观测和任务指令为输入,预测上述结构化进度值,并用该值重塑**终端奖励(terminal reward)**
- 框架兼容现有VLA策略强化学习流程(如**PPO** 和**GRPO**),无需手动奖励工程,直接集成到策略优化中
- **首次提出** 基于预训练视觉世界模型自动推导**连续进度目标(continuous progress target)**,而非依赖人工设计或稀疏奖励
- **补丁级相似性与趋势聚类** 结合:从细粒度视觉特征层面递进划分语义阶段,生成比传统二值奖励更密集、更有信息量的进度信号
- **通用兼容性(compatibility)**:无需修改VLA模型结构或强化学习算法,可直接嵌入现有流程(如PPO/GRPO),显著降低应用门槛
- 为**具身强化学习(embodied reinforcement learning)** 提供了一种自动化的**细粒度值估计范式(fine-grained value estimation paradigm)**,解决了长程操作任务中的奖励稀疏问题
- 在**ManiSkill3** 和**RoboTwin 2.0** 多个基准上取得大幅性能提升,例如在ManiSkill3上OpenVLAOFT的平均**分布外成功率(out-of-distribution success rate)** 从17.5%提升至82.9%
- 兼容现有**VLA模型** 和强化学习算法(PPO/GRPO),无需人工奖励工程,推动了强化学习在具身智能中的实用化