冻结的VLA对成功已知什么：基础机器人策略中类价值结构的探针研究

📝 论文摘要

视觉-语言-动作（VLA）策略通过模仿动作进行训练；其损失函数从未要求它们估计奖励、进展或未来成功。然而，这些冻结的表征仍蕴含此类信息，且无需重新训练策略即可被读取并用于指导动作选择。基于LIBERO-Goal数据集中的成功与失败混合操作轨迹，我们利用冻结特征上的轻量级线性探针恢复了蒙特卡洛结果目标。这些目标在OpenVLA、Pi0.5、DINOv2和CLIP特征上具有稳定的可预测性，而在基于进度、剩余时间、任务标识或本体感觉的基线方法上则显著较差。为排除任务与时间捷径效应，我们在相同任务、相同时间步长的匹配比较条件下评估探针：Pi0.5探针仍达到约92%的成对排序准确率，而标签打乱的控制组则停留在随机水平。将该探针作为测试时选择器应用于采样的Pi0.5动作前缀，可将此离线发现转化为行为表现：在推板任务中，成功率从贪婪解码下的26.7%提升至44.3%，并在酒架任务中取得了另一正向案例。尽管收益并非普适且需要额外推理计算，但基础发现清晰明确：冻结的VLA已编码了其模仿目标从未明确要求其学习的成功相关信息。

🎯 研究动机

- 现有**视觉-语言-动作(VLA)** 策略仅通过模仿学习训练，损失函数不要求估计奖励或成功，但冻结表示可能隐含价值相关信息 - 研究背景：机器人策略中价值函数通常需要额外学习，本文探究**VLA预训练模型** 是否已内置成功预测能力 - 核心问题：能否从冻结的VLA特征中提取成功信息，并用于改进动作选择而不重新训练策略 - 现有方法依赖进度、时间或任务身份等浅层线索，本文关注更本质的**成功价值结构**

🔧 核心方法

- 使用**轻量级线性探针(lightweight linear probes)** 在冻结特征上预测**蒙特卡洛结果目标(Monte-Carlo outcome targets)**，从混合成功与失败的操控轨迹中学习 - 在**LIBERO-Goal** 数据集上训练探针，评估多种冻结特征（OpenVLA, Pi0.5, DINOv2, CLIP）的预测能力 - 设计**同任务-同时间步匹配比较(same-task same-timestep matched comparisons)** 和**标签打乱(label shuffling)** 对照实验，排除任务和时间捷径 - 将探针作为**测试时选择器(test-time selector)**，对Pi0.5采样的动作前缀进行排序，选择预测成功概率最高的动作序列

💡 核心创新

- **首次揭示**：冻结的VLA策略表示已编码**价值类信息(value-like structure)**，尽管训练目标从未要求，这为无需额外训练的价值函数提取提供了新途径 - **严格的因果验证**：通过同时间步匹配比较和标签打乱实验，证明预测能力来源于真正的成功信号，而非位置或身份混淆 - **端到端行为转化**：将离线探针发现转化为在线行为改进，利用**测试时选择(test-time selection)** 提升成功率（如push-plate从26.7%到44.3%），无需修改策略参数 - **跨模型泛化**：多个基础模型（OpenVLA, Pi0.5, DINOv2, CLIP）均一致表现出可预测性，表明该现象具有普遍性

🏆 总体贡献

- 为机器人学习领域提供了一种**轻量级价值提取范式**，从现成的VLA策略中挖掘隐式成功信号 - 在标准操控基准**LIBERO-Goal** 上验证了方法的有效性，并在两个任务上观察到性能提升 - 促进对**预训练VLA表征** 中隐含结构化信息的理解，为未来无需显式奖励设计的策略优化奠定基础 - 开源探针方法与实验设置，便于社区复现和进一步探索**冻结特征中的价值结构**

冻结的VLA对成功已知什么：基础机器人策略中类价值结构的探针研究
What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies

📊 核心分析

冻结的VLA对成功已知什么：基础机器人策略中类价值结构的探针研究 What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies

📊 核心分析

冻结的VLA对成功已知什么：基础机器人策略中类价值结构的探针研究
What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies