← 返回论文列表

压缩鸿沟:为何离散化标记限制视觉-语言-动作模型的扩展
The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

作者: Takuya Shiba
arXiv: 2604.03191v1
分类: cs.RO, cs.CV, cs.LG
📝 论文摘要
通过升级视觉编码器来扩展视觉-语言-动作(VLA)模型,有望提升下游操作性能——正如在视觉-语言建模中所见。然而,当动作被表示为离散标记时,这一预期并未实现。我们通过一个信息论原则——"压缩间隙"解释了这一现象:在任何视觉-运动管道中,扩展行为受制于最严格信息瓶颈的位置。当动作是连续的(如扩散策略),视觉编码器成为约束瓶颈,升级编码器可直接提升性能。当动作通过固定容量的码本(如OAT)离散化时,码本成为约束瓶颈,编码器的改进无法突破这一瓶颈——无论上游表征多么丰富。我们在LIBERO基准测试中通过三条证据验证了这一原则:析因实验显示,编码器升级使扩散策略性能提升超过21个百分点,而OAT在不同模型规模下的增益显著减弱;四种编码器的质量梯度实验证实,扩散策略性能随编码器质量单调提升,而OAT保持平缓;码本容量实验表明,放宽码本容量可部分恢复编码器敏感性,为瓶颈假设提供了因果证据。我们的研究揭示,物理人工智能的扩展需要识别管道中的信息瓶颈位置,而非简单地统一增加模型或数据规模。

📊 核心分析

🎯 研究动机
该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在扩展时遇到的一个关键问题:当动作被表示为离散标记(token)时,升级视觉编码器(vision encoder)并不能像在视觉-语言建模中那样有效提升下游操作任务的性能。研究背景是,在物理人工智能(Physical AI)领域,通过扩大模型规模来提升VLA模型性能是常见做法,但本文发现这种做法的有效性取决于动作的表示形式。
🔧 核心方法
论文采用了一种信息论分析框架,提出了一个称为“压缩间隙(Compression Gap)”的原则。具体研究方法包括: - 在LIBERO基准测试上进行三组实验验证: 1. 析因实验(factorial experiment):比较不同模型规模下,扩散策略(Diffusion Policy)与OAT模型在升级视觉编码器后的性能变化。 2. 编码器质量梯度实验:使用四种不同质量的视觉编码器,观察扩散策略与OAT模型性能随编码器质量变化的趋势。 3. 码本(codebook)大小实验:通过调整码本容量,验证其是否为信息瓶颈,并观察其对编码器敏感性恢复的影响。
💡 核心创新
论文的核心创新点在于: - 提出了“压缩间隙(Compression Gap)”这一信息论原则,用于解释和预测视觉-动作(visuomotor)管道中模型扩展(scaling)行为的根本限制。该原则指出,任何视觉-动作管道的扩展行为都由最紧的信息瓶颈(information bottleneck)的位置决定。 - 明确揭示了动作表示形式对模型扩展有效性的决定性影响: - 当动作是连续的(如扩散策略),视觉编码器是约束瓶颈,升级它能直接提升性能。 - 当动作通过固定容量的码本被离散化(如OAT),码本成为约束瓶颈,上游视觉编码器的改进无法越过此瓶颈传递,导致扩展失效。 - 这一发现挑战了在VLA模型中“均匀扩大模型或数据规模就能提升性能”的普遍假设,将研究焦点转向识别和解决管道中的具体信息瓶颈。
🏆 总体贡献
论文对该领域的总体贡献是: - 从信息论角度,为视觉-语言-动作模型的扩展行为提供了一个统一的理论解释框架(压缩间隙原则)。 - 通过系统的实验证据,揭示了离散动作标记化(discrete tokenization)是限制VLA模型扩展的关键因素,并提供了因果证据。 - 为物理人工智能(Physical AI)领域的模型设计提供了重要指导:提升性能的关键在于识别并缓解管道中的信息瓶颈,而非盲目扩大模型规模。这为未来更高效的VLA模型架构设计指明了方向。