Wall-OSS-0.5 技术报告 - Yuki N 的世界

📝 论文摘要

大规模视觉-语言-动作（VLA）预训练正日益成为机器人策略的基础，然而预训练VLA的成效几乎无一例外地在任务特定微调后才被报告。这留下了一个根本性问题未获解答：VLA预训练本身是否就能产生可执行的机器人行为，抑或仅仅为下游策略学习提供了更好的初始化？我们提出Wall-OSS-0.5，一个基于3B VLM骨干网络并增强动作生成组件的开源4B VLA模型，其设计使得预训练的机器人能力可直接在物理硬件上测量。该模型在超过20个实体上进行预训练，每轮处理超过一百万条机器人轨迹及一个多模态语料库。我们采用了一种梯度桥接协同训练方法，其中三个目标发挥着独特且互补的作用：离散动作预测将强大的VLM原生梯度路由至骨干网络，多模态预测保持基于视觉-语言的理解能力，而连续流匹配则作为部署时的动作接口。在任务特定微调之前，预训练检查点展现出非平凡的零样本真实机器人行为，在17个任务套件中完成了多个任务（包括一项独立的可变形操作任务），并取得较高任务进度。微调后，同一检查点作为更强的适应先验，在15个真实机器人任务上达到60.5%的平均任务进度，比π_0.5高出17.5%。多模态评估进一步确认，动作训练并未削弱基于视觉-语言的能力：模型在强化具身基础的同时保持了广泛的视觉-语言能力。这些结果共同将VLA预训练从一种初始化策略重新定位为可直接测试、已具备实用价值的机器人能力来源。

🎯 研究动机

- 大规模**视觉-语言-动作(Vision-Language-Action, VLA)** 预训练被广泛用作机器人策略的基础，但现有证据几乎全部来自任务特定的**微调(fine-tuning)** 之后 - 根本问题未解答：VLA预训练本身是否产生可执行的机器人行为，还是仅仅为下游策略学习提供更好的**初始化(initialization)** - 研究背景：需要明确预训练后未经微调的模型是否具备实际操控能力，而非仅作为微调的起点

🔧 核心方法

- 提出**Wall-OSS-0.5**，一个开源**4B参数** 的VLA模型，基于**3B参数VLM骨干(backbone)** 并增强动作生成组件 - 在**超过20种机器人构型(embodiments)** 上预训练，每轮处理**超过100万条机器人轨迹** 及**多模态语料库(multimodal corpus)** - 采用**梯度桥联合训练(gradient-bridged co-training)** 配方，包含三个互补目标：**离散动作预测** 将VLM强梯度注入骨干，**多模态预测** 保持接地视觉语言理解，**连续流匹配(continuous flow matching)** 作为部署时动作接口

💡 核心创新

- **首次直接证明** VLA预训练本身可产生**可直接执行的零样本(零样本)机器人行为**，无需微调即可完成多个任务，包括保形的**可变形物体操控任务(deformable manipulation task)** - 三个训练目标**角色明确且互补**，实现动作预测与视觉语言理解的协同优化，同时**不侵蚀(erode)** 接地视觉语言能力 - 将VLA预训练从**初始化策略** 重新定位为**可直接测试且已有用的机器人能力来源**，打破了“预训练仅用于微调初始化”的传统认知

🏆 总体贡献

- 开源了一个**4B参数VLA模型**，并展示了其在**零样本(zero-shot)真实机器人** 场景下的非平凡行为，为社区提供了可直接评估预训练能力的基准 - 微调后**达到60.5%平均任务进度**，超越**π_0.5** 达**17.5%**，证明该预训练也是**更强的适应先验(adaptation prior)** - 多模态评估**验证动作训练不损害广泛视觉语言能力**，反而增强了**接地具身表征(grounded embodied grounding)**，为VLA预训练范式提供了实验支撑

Wall-OSS-0.5 技术报告
Wall-OSS-0.5 Technical Report

📊 核心分析

Wall-OSS-0.5 技术报告 Wall-OSS-0.5 Technical Report

📊 核心分析

Wall-OSS-0.5 技术报告
Wall-OSS-0.5 Technical Report