压缩鸿沟：为何离散化标记限制视觉-语言-动作模型的扩展

📝 论文摘要

通过升级视觉编码器来扩展视觉-语言-动作（VLA）模型，有望提升下游操作性能——正如在视觉-语言建模中所见。然而，当动作被表示为离散标记时，这一预期并未实现。我们通过一个信息论原则——"压缩间隙"解释了这一现象：在任何视觉-运动管道中，扩展行为受制于最严格信息瓶颈的位置。当动作是连续的（如扩散策略），视觉编码器成为约束瓶颈，升级编码器可直接提升性能。当动作通过固定容量的码本（如OAT）离散化时，码本成为约束瓶颈，编码器的改进无法突破这一瓶颈——无论上游表征多么丰富。我们在LIBERO基准测试中通过三条证据验证了这一原则：析因实验显示，编码器升级使扩散策略性能提升超过21个百分点，而OAT在不同模型规模下的增益显著减弱；四种编码器的质量梯度实验证实，扩散策略性能随编码器质量单调提升，而OAT保持平缓；码本容量实验表明，放宽码本容量可部分恢复编码器敏感性，为瓶颈假设提供了因果证据。我们的研究揭示，物理人工智能的扩展需要识别管道中的信息瓶颈位置，而非简单地统一增加模型或数据规模。

🎯 研究动机

该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在扩展时遇到的一个关键问题：当动作被表示为离散标记(token)时，升级视觉编码器(vision encoder)并不能像在视觉-语言建模中那样有效提升下游操作任务的性能。研究背景是，在物理人工智能(Physical AI)领域，通过扩大模型规模来提升VLA模型性能是常见做法，但本文发现这种做法的有效性取决于动作的表示形式。

🔧 核心方法

论文采用了一种信息论分析框架，提出了一个称为“压缩间隙(Compression Gap)”的原则。具体研究方法包括： - 在LIBERO基准测试上进行三组实验验证： 1. 析因实验(factorial experiment)：比较不同模型规模下，扩散策略(Diffusion Policy)与OAT模型在升级视觉编码器后的性能变化。 2. 编码器质量梯度实验：使用四种不同质量的视觉编码器，观察扩散策略与OAT模型性能随编码器质量变化的趋势。 3. 码本(codebook)大小实验：通过调整码本容量，验证其是否为信息瓶颈，并观察其对编码器敏感性恢复的影响。

💡 核心创新

论文的核心创新点在于： - 提出了“压缩间隙(Compression Gap)”这一信息论原则，用于解释和预测视觉-动作(visuomotor)管道中模型扩展(scaling)行为的根本限制。该原则指出，任何视觉-动作管道的扩展行为都由最紧的信息瓶颈(information bottleneck)的位置决定。 - 明确揭示了动作表示形式对模型扩展有效性的决定性影响： - 当动作是连续的（如扩散策略），视觉编码器是约束瓶颈，升级它能直接提升性能。 - 当动作通过固定容量的码本被离散化（如OAT），码本成为约束瓶颈，上游视觉编码器的改进无法越过此瓶颈传递，导致扩展失效。 - 这一发现挑战了在VLA模型中“均匀扩大模型或数据规模就能提升性能”的普遍假设，将研究焦点转向识别和解决管道中的具体信息瓶颈。

🏆 总体贡献

论文对该领域的总体贡献是： - 从信息论角度，为视觉-语言-动作模型的扩展行为提供了一个统一的理论解释框架（压缩间隙原则）。 - 通过系统的实验证据，揭示了离散动作标记化(discrete tokenization)是限制VLA模型扩展的关键因素，并提供了因果证据。 - 为物理人工智能(Physical AI)领域的模型设计提供了重要指导：提升性能的关键在于识别并缓解管道中的信息瓶颈，而非盲目扩大模型规模。这为未来更高效的VLA模型架构设计指明了方向。

压缩鸿沟：为何离散化标记限制视觉-语言-动作模型的扩展
The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

📊 核心分析

压缩鸿沟：为何离散化标记限制视觉-语言-动作模型的扩展 The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

📊 核心分析

压缩鸿沟：为何离散化标记限制视觉-语言-动作模型的扩展
The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling