该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在扩展时遇到的一个关键问题:当动作被表示为离散标记(token)时,升级视觉编码器(vision encoder)并不能像在视觉-语言建模中那样有效提升下游操作任务的性能。研究背景是,在物理人工智能(Physical AI)领域,通过扩大模型规模来提升VLA模型性能是常见做法,但本文发现这种做法的有效性取决于动作的表示形式。
论文采用了一种信息论分析框架,提出了一个称为“压缩间隙(Compression Gap)”的原则。具体研究方法包括:
- 在LIBERO基准测试上进行三组实验验证:
1. 析因实验(factorial experiment):比较不同模型规模下,扩散策略(Diffusion Policy)与OAT模型在升级视觉编码器后的性能变化。
2. 编码器质量梯度实验:使用四种不同质量的视觉编码器,观察扩散策略与OAT模型性能随编码器质量变化的趋势。
3. 码本(codebook)大小实验:通过调整码本容量,验证其是否为信息瓶颈,并观察其对编码器敏感性恢复的影响。
论文的核心创新点在于:
- 提出了“压缩间隙(Compression Gap)”这一信息论原则,用于解释和预测视觉-动作(visuomotor)管道中模型扩展(scaling)行为的根本限制。该原则指出,任何视觉-动作管道的扩展行为都由最紧的信息瓶颈(information bottleneck)的位置决定。
- 明确揭示了动作表示形式对模型扩展有效性的决定性影响:
- 当动作是连续的(如扩散策略),视觉编码器是约束瓶颈,升级它能直接提升性能。
- 当动作通过固定容量的码本被离散化(如OAT),码本成为约束瓶颈,上游视觉编码器的改进无法越过此瓶颈传递,导致扩展失效。
- 这一发现挑战了在VLA模型中“均匀扩大模型或数据规模就能提升性能”的普遍假设,将研究焦点转向识别和解决管道中的具体信息瓶颈。
论文对该领域的总体贡献是:
- 从信息论角度,为视觉-语言-动作模型的扩展行为提供了一个统一的理论解释框架(压缩间隙原则)。
- 通过系统的实验证据,揭示了离散动作标记化(discrete tokenization)是限制VLA模型扩展的关键因素,并提供了因果证据。
- 为物理人工智能(Physical AI)领域的模型设计提供了重要指导:提升性能的关键在于识别并缓解管道中的信息瓶颈,而非盲目扩大模型规模。这为未来更高效的VLA模型架构设计指明了方向。