Feat2Go：面向具身强化学习的视觉特征驱动价值估计

📝 论文摘要

强化学习是提升视觉-语言-动作（VLA）模型能力的一种有前景的方法，同时能避免模仿学习所需的大量数据。然而，其在VLA模型中的有效性往往受限于稀疏的监督信号以及为长时程操作设计具有信息量的奖励信号的困难性。本文提出Feat2Go，一种用于具身强化学习的细粒度价值估计框架。具体而言，Feat2Go首先通过测量与子目标状态的补丁级相似性，并利用基于趋势的聚类将情景划分为语义阶段，从预训练的视觉世界模型中推导出连续进度目标。随后，我们训练一个具身价值模型，从当前观测和任务指令中预测该结构进度，并在策略优化过程中利用预测值重塑终端奖励。所提出的框架兼容现有的VLA策略强化学习流程（包括PPO和GRPO），且不依赖人工奖励工程。在ManiSkill3和RoboTwin 2.0上的大量实验表明，Feat2Go在单臂和双臂操作场景下均能持续提升现有VLA模型的性能。具体而言，在ManiSkill3上，Feat2Go将OpenVLAOFT的平均分布外成功率从17.5%提升至82.9%，同时保留了96.9%的分布内性能。在RoboTwin 2.0上，Feat2Go在域随机化任务设置中实现了88.8%的平均成功率，优于先前的强化学习方法。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在具身任务中依赖模仿学习，数据需求量大、泛化性不足 - 使用**强化学习(reinforcement learning)** 优化VLA模型时，面临**稀疏监督(sparse supervision)** 和**长程操作(long-horizon manipulation)** 的奖励设计困难 - 手动设计奖励信号耗时且难以保证有效性，亟需一种自动化的**细粒度值估计(fine-grained value estimation)** 方法

🔧 核心方法

- 提出**Feat2Go** 框架，首先从预训练**视觉世界模型(visual world model)** 中提取连续进度目标：通过测量当前观测与子目标状态的**补丁级相似性(patch-level similarity)**，并利用**趋势聚类(trend-based clustering)** 将回合划分为语义阶段 - 训练一个**具身价值模型(embodied value model)**，以当前观测和任务指令为输入，预测上述结构化进度值，并用该值重塑**终端奖励(terminal reward)** - 框架兼容现有VLA策略强化学习流程（如**PPO** 和**GRPO**），无需手动奖励工程，直接集成到策略优化中

💡 核心创新

- **首次提出** 基于预训练视觉世界模型自动推导**连续进度目标(continuous progress target)**，而非依赖人工设计或稀疏奖励 - **补丁级相似性与趋势聚类** 结合：从细粒度视觉特征层面递进划分语义阶段，生成比传统二值奖励更密集、更有信息量的进度信号 - **通用兼容性(compatibility)**：无需修改VLA模型结构或强化学习算法，可直接嵌入现有流程（如PPO/GRPO），显著降低应用门槛

🏆 总体贡献

- 为**具身强化学习(embodied reinforcement learning)** 提供了一种自动化的**细粒度值估计范式(fine-grained value estimation paradigm)**，解决了长程操作任务中的奖励稀疏问题 - 在**ManiSkill3** 和**RoboTwin 2.0** 多个基准上取得大幅性能提升，例如在ManiSkill3上OpenVLAOFT的平均**分布外成功率(out-of-distribution success rate)** 从17.5%提升至82.9% - 兼容现有**VLA模型** 和强化学习算法（PPO/GRPO），无需人工奖励工程，推动了强化学习在具身智能中的实用化

Feat2Go：面向具身强化学习的视觉特征驱动价值估计
Feat2Go: Visual Feature-Grounded Value Estimation for Embodied Reinforcement Learning

📊 核心分析

Feat2Go：面向具身强化学习的视觉特征驱动价值估计 Feat2Go: Visual Feature-Grounded Value Estimation for Embodied Reinforcement Learning

📊 核心分析

Feat2Go：面向具身强化学习的视觉特征驱动价值估计
Feat2Go: Visual Feature-Grounded Value Estimation for Embodied Reinforcement Learning