← 返回论文列表

冻结的VLA对成功已知什么:基础机器人策略中类价值结构的探针研究
What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies

作者: Jiachen Zhang, Junnan Nie, Junyi Lao 等7人
arXiv: 2605.28527v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)策略通过模仿动作进行训练;其损失函数从未要求它们估计奖励、进展或未来成功。然而,这些冻结的表征仍蕴含此类信息,且无需重新训练策略即可被读取并用于指导动作选择。基于LIBERO-Goal数据集中的成功与失败混合操作轨迹,我们利用冻结特征上的轻量级线性探针恢复了蒙特卡洛结果目标。这些目标在OpenVLA、Pi0.5、DINOv2和CLIP特征上具有稳定的可预测性,而在基于进度、剩余时间、任务标识或本体感觉的基线方法上则显著较差。为排除任务与时间捷径效应,我们在相同任务、相同时间步长的匹配比较条件下评估探针:Pi0.5探针仍达到约92%的成对排序准确率,而标签打乱的控制组则停留在随机水平。将该探针作为测试时选择器应用于采样的Pi0.5动作前缀,可将此离线发现转化为行为表现:在推板任务中,成功率从贪婪解码下的26.7%提升至44.3%,并在酒架任务中取得了另一正向案例。尽管收益并非普适且需要额外推理计算,但基础发现清晰明确:冻结的VLA已编码了其模仿目标从未明确要求其学习的成功相关信息。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(VLA)** 策略仅通过模仿学习训练,损失函数不要求估计奖励或成功,但冻结表示可能隐含价值相关信息 - 研究背景:机器人策略中价值函数通常需要额外学习,本文探究**VLA预训练模型** 是否已内置成功预测能力 - 核心问题:能否从冻结的VLA特征中提取成功信息,并用于改进动作选择而不重新训练策略 - 现有方法依赖进度、时间或任务身份等浅层线索,本文关注更本质的**成功价值结构**
🔧 核心方法
- 使用**轻量级线性探针(lightweight linear probes)** 在冻结特征上预测**蒙特卡洛结果目标(Monte-Carlo outcome targets)**,从混合成功与失败的操控轨迹中学习 - 在**LIBERO-Goal** 数据集上训练探针,评估多种冻结特征(OpenVLA, Pi0.5, DINOv2, CLIP)的预测能力 - 设计**同任务-同时间步匹配比较(same-task same-timestep matched comparisons)** 和**标签打乱(label shuffling)** 对照实验,排除任务和时间捷径 - 将探针作为**测试时选择器(test-time selector)**,对Pi0.5采样的动作前缀进行排序,选择预测成功概率最高的动作序列
💡 核心创新
- **首次揭示**:冻结的VLA策略表示已编码**价值类信息(value-like structure)**,尽管训练目标从未要求,这为无需额外训练的价值函数提取提供了新途径 - **严格的因果验证**:通过同时间步匹配比较和标签打乱实验,证明预测能力来源于真正的成功信号,而非位置或身份混淆 - **端到端行为转化**:将离线探针发现转化为在线行为改进,利用**测试时选择(test-time selection)** 提升成功率(如push-plate从26.7%到44.3%),无需修改策略参数 - **跨模型泛化**:多个基础模型(OpenVLA, Pi0.5, DINOv2, CLIP)均一致表现出可预测性,表明该现象具有普遍性
🏆 总体贡献
- 为机器人学习领域提供了一种**轻量级价值提取范式**,从现成的VLA策略中挖掘隐式成功信号 - 在标准操控基准**LIBERO-Goal** 上验证了方法的有效性,并在两个任务上观察到性能提升 - 促进对**预训练VLA表征** 中隐含结构化信息的理解,为未来无需显式奖励设计的策略优化奠定基础 - 开源探针方法与实验设置,便于社区复现和进一步探索**冻结特征中的价值结构**