- 大规模**视觉-语言-动作(Vision-Language-Action, VLA)** 预训练被广泛用作机器人策略的基础,但现有证据几乎全部来自任务特定的**微调(fine-tuning)** 之后
- 根本问题未解答:VLA预训练本身是否产生可执行的机器人行为,还是仅仅为下游策略学习提供更好的**初始化(initialization)**
- 研究背景:需要明确预训练后未经微调的模型是否具备实际操控能力,而非仅作为微调的起点
- 提出**Wall-OSS-0.5**,一个开源**4B参数** 的VLA模型,基于**3B参数VLM骨干(backbone)** 并增强动作生成组件
- 在**超过20种机器人构型(embodiments)** 上预训练,每轮处理**超过100万条机器人轨迹** 及**多模态语料库(multimodal corpus)**
- 采用**梯度桥联合训练(gradient-bridged co-training)** 配方,包含三个互补目标:**离散动作预测** 将VLM强梯度注入骨干,**多模态预测** 保持接地视觉语言理解,**连续流匹配(continuous flow matching)** 作为部署时动作接口
- **首次直接证明** VLA预训练本身可产生**可直接执行的零样本(零样本)机器人行为**,无需微调即可完成多个任务,包括保形的**可变形物体操控任务(deformable manipulation task)**
- 三个训练目标**角色明确且互补**,实现动作预测与视觉语言理解的协同优化,同时**不侵蚀(erode)** 接地视觉语言能力
- 将VLA预训练从**初始化策略** 重新定位为**可直接测试且已有用的机器人能力来源**,打破了“预训练仅用于微调初始化”的传统认知
- 开源了一个**4B参数VLA模型**,并展示了其在**零样本(zero-shot)真实机器人** 场景下的非平凡行为,为社区提供了可直接评估预训练能力的基准
- 微调后**达到60.5%平均任务进度**,超越**π_0.5** 达**17.5%**,证明该预训练也是**更强的适应先验(adaptation prior)**
- 多模态评估**验证动作训练不损害广泛视觉语言能力**,反而增强了**接地具身表征(grounded embodied grounding)**,为VLA预训练范式提供了实验支撑