← 返回论文列表

Wall-OSS-0.5 技术报告
Wall-OSS-0.5 Technical Report

作者: Ryan Yu, Pushi Zhang, Starrick Liu 等27人
arXiv: 2605.30877v1
分类: cs.RO
📝 论文摘要
大规模视觉-语言-动作(VLA)预训练正日益成为机器人策略的基础,然而预训练VLA的成效几乎无一例外地在任务特定微调后才被报告。这留下了一个根本性问题未获解答:VLA预训练本身是否就能产生可执行的机器人行为,抑或仅仅为下游策略学习提供了更好的初始化?我们提出Wall-OSS-0.5,一个基于3B VLM骨干网络并增强动作生成组件的开源4B VLA模型,其设计使得预训练的机器人能力可直接在物理硬件上测量。该模型在超过20个实体上进行预训练,每轮处理超过一百万条机器人轨迹及一个多模态语料库。我们采用了一种梯度桥接协同训练方法,其中三个目标发挥着独特且互补的作用:离散动作预测将强大的VLM原生梯度路由至骨干网络,多模态预测保持基于视觉-语言的理解能力,而连续流匹配则作为部署时的动作接口。在任务特定微调之前,预训练检查点展现出非平凡的零样本真实机器人行为,在17个任务套件中完成了多个任务(包括一项独立的可变形操作任务),并取得较高任务进度。微调后,同一检查点作为更强的适应先验,在15个真实机器人任务上达到60.5%的平均任务进度,比π_0.5高出17.5%。多模态评估进一步确认,动作训练并未削弱基于视觉-语言的能力:模型在强化具身基础的同时保持了广泛的视觉-语言能力。这些结果共同将VLA预训练从一种初始化策略重新定位为可直接测试、已具备实用价值的机器人能力来源。

📊 核心分析

🎯 研究动机
- 大规模**视觉-语言-动作(Vision-Language-Action, VLA)** 预训练被广泛用作机器人策略的基础,但现有证据几乎全部来自任务特定的**微调(fine-tuning)** 之后 - 根本问题未解答:VLA预训练本身是否产生可执行的机器人行为,还是仅仅为下游策略学习提供更好的**初始化(initialization)** - 研究背景:需要明确预训练后未经微调的模型是否具备实际操控能力,而非仅作为微调的起点
🔧 核心方法
- 提出**Wall-OSS-0.5**,一个开源**4B参数** 的VLA模型,基于**3B参数VLM骨干(backbone)** 并增强动作生成组件 - 在**超过20种机器人构型(embodiments)** 上预训练,每轮处理**超过100万条机器人轨迹** 及**多模态语料库(multimodal corpus)** - 采用**梯度桥联合训练(gradient-bridged co-training)** 配方,包含三个互补目标:**离散动作预测** 将VLM强梯度注入骨干,**多模态预测** 保持接地视觉语言理解,**连续流匹配(continuous flow matching)** 作为部署时动作接口
💡 核心创新
- **首次直接证明** VLA预训练本身可产生**可直接执行的零样本(零样本)机器人行为**,无需微调即可完成多个任务,包括保形的**可变形物体操控任务(deformable manipulation task)** - 三个训练目标**角色明确且互补**,实现动作预测与视觉语言理解的协同优化,同时**不侵蚀(erode)** 接地视觉语言能力 - 将VLA预训练从**初始化策略** 重新定位为**可直接测试且已有用的机器人能力来源**,打破了“预训练仅用于微调初始化”的传统认知
🏆 总体贡献
- 开源了一个**4B参数VLA模型**,并展示了其在**零样本(zero-shot)真实机器人** 场景下的非平凡行为,为社区提供了可直接评估预训练能力的基准 - 微调后**达到60.5%平均任务进度**,超越**π_0.5** 达**17.5%**,证明该预训练也是**更强的适应先验(adaptation prior)** - 多模态评估**验证动作训练不损害广泛视觉语言能力**,反而增强了**接地具身表征(grounded embodied grounding)**,为VLA预训练范式提供了实验支撑