当前视觉-语言-动作(Vision-Language-Action, VLA)模型领域存在高度碎片化和复杂性问题:
• 现有方法在架构、训练数据、具身配置和基准测试工程方面差异巨大
• 这种复杂性导致难以系统评估不同设计选择的有效性
• 需要建立一个简单但强大的基线来在受控条件下研究VLA设计选择
论文提出了StarVLA-α基线模型,采用最小化复杂性的设计原则:
• 使用强大的视觉语言模型(Vision-Language Model, VLM)作为主干
• 重新评估关键设计轴:动作建模策略、机器人特定预训练、接口工程
• 在LIBERO、SimplerEnv、RoboTwin和RoboCasa等多个基准上进行统一训练
• 避免依赖额外的架构复杂性或工程技巧
论文的核心创新在于证明了"简约设计"的有效性:
• 首次系统性地证明:强大的VLM主干结合最小化设计已足以实现强劲性能
• 挑战了当前VLA领域普遍依赖复杂架构和工程技巧的范式
• 通过受控实验表明,许多现有复杂性可能是冗余的
• 在真实世界RoboChallenge基准上,单一通用模型比π0.5性能提升20%
论文对该领域的主要贡献包括:
• 提供了StarVLA-α这一简单而强大的VLA基线模型
• 为未来VLA研究建立了可靠的起点和评估框架
• 通过实证研究揭示了当前VLA设计中可能存在的过度工程问题
• 开源代码促进领域研究的可重复性和比较分析