- 现有**视觉-语言-动作(VLA)** 策略仅通过模仿学习训练,损失函数不要求估计奖励或成功,但冻结表示可能隐含价值相关信息
- 研究背景:机器人策略中价值函数通常需要额外学习,本文探究**VLA预训练模型** 是否已内置成功预测能力
- 核心问题:能否从冻结的VLA特征中提取成功信息,并用于改进动作选择而不重新训练策略
- 现有方法依赖进度、时间或任务身份等浅层线索,本文关注更本质的**成功价值结构**
- 使用**轻量级线性探针(lightweight linear probes)** 在冻结特征上预测**蒙特卡洛结果目标(Monte-Carlo outcome targets)**,从混合成功与失败的操控轨迹中学习
- 在**LIBERO-Goal** 数据集上训练探针,评估多种冻结特征(OpenVLA, Pi0.5, DINOv2, CLIP)的预测能力
- 设计**同任务-同时间步匹配比较(same-task same-timestep matched comparisons)** 和**标签打乱(label shuffling)** 对照实验,排除任务和时间捷径
- 将探针作为**测试时选择器(test-time selector)**,对Pi0.5采样的动作前缀进行排序,选择预测成功概率最高的动作序列
- **首次揭示**:冻结的VLA策略表示已编码**价值类信息(value-like structure)**,尽管训练目标从未要求,这为无需额外训练的价值函数提取提供了新途径
- **严格的因果验证**:通过同时间步匹配比较和标签打乱实验,证明预测能力来源于真正的成功信号,而非位置或身份混淆
- **端到端行为转化**:将离线探针发现转化为在线行为改进,利用**测试时选择(test-time selection)** 提升成功率(如push-plate从26.7%到44.3%),无需修改策略参数
- **跨模型泛化**:多个基础模型(OpenVLA, Pi0.5, DINOv2, CLIP)均一致表现出可预测性,表明该现象具有普遍性
- 为机器人学习领域提供了一种**轻量级价值提取范式**,从现成的VLA策略中挖掘隐式成功信号
- 在标准操控基准**LIBERO-Goal** 上验证了方法的有效性,并在两个任务上观察到性能提升
- 促进对**预训练VLA表征** 中隐含结构化信息的理解,为未来无需显式奖励设计的策略优化奠定基础
- 开源探针方法与实验设置,便于社区复现和进一步探索**冻结特征中的价值结构**