从像素到标记：视觉-语言-动作模型中潜在动作监督的系统研究

📝 论文摘要

潜在动作作为一种中间表示，能够支持跨越异构数据集的视觉-语言-动作（VLA）模型进行一致性建模。然而，当前用于监督VLA的潜在动作方法较为分散，缺乏系统性比较。本研究从两个视角系统梳理了潜在动作监督：(i) 通过基于图像的潜在动作对轨迹进行正则化；(ii) 通过基于动作的潜在动作统一目标空间。在统一的VLA基线框架下，我们实例化并比较了四种代表性集成策略。结果表明存在公式化-任务对应关系：基于图像的潜在动作有利于长程推理与场景级泛化，而基于动作的潜在动作在复杂运动协调方面表现更优。此外，我们发现直接用离散潜在动作令牌监督VLM可获得最优性能。最后，实验初步揭示了潜在动作监督在混合数据中的优势，为VLA训练指明了有前景的方向。代码见 https://github.com/RUCKBReasoning/From_Pixels_to_Tokens。

🎯 研究动机

- 解决**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在异构数据集上使用**潜在动作(Latent Action)** 监督时缺乏系统性比较的问题 - 现有方法对VLA进行潜在动作监督的方式分散且不统一 - 研究背景：潜在动作作为中间表示可以统一建模跨数据集的一致表征，但如何有效监督尚不明确

🔧 核心方法

- 从两个视角系统研究潜在动作监督：**(i) 基于图像的潜在动作(image-based latent action)** 用于正则化轨迹；**(ii) 基于动作的潜在动作(action-based latent action)** 用于统一目标空间 - 在统一的**VLA基线(VLA baseline)** 下实例化并比较四种代表性集成策略 - 通过实验揭示**配方-任务对应关系(formulation-task correspondence)** 并分析混合数据训练效果

💡 核心创新

- **系统性对比**：首次在统一基线框架下系统比较多种潜在动作监督集成策略 - **发现配方-任务对应关系**：基于图像的潜在动作有利于**长程推理(long-horizon reasoning)** 和**场景级泛化(scene-level generalization)**，基于动作的潜在动作擅长**复杂运动协调(complex motor coordination)** - **有效性发现**：直接使用**离散潜在动作令牌(discrete latent action tokens)** 监督VLM实现最有效性能 - **混合数据训练洞察**：提供潜在动作监督在混合数据中优势的初步见解

🏆 总体贡献

- 为VLA领域提供潜在动作监督的系统性研究框架和比较结果 - 揭示不同潜在动作公式与任务类型的对应关系，指导实际选择 - 明确有效训练策略：直接离散潜在动作令牌监督 - 开源代码促进社区复现与后续研究

从像素到标记：视觉-语言-动作模型中潜在动作监督的系统研究
From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

📊 核心分析

从像素到标记：视觉-语言-动作模型中潜在动作监督的系统研究 From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

📊 核心分析

从像素到标记：视觉-语言-动作模型中潜在动作监督的系统研究
From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models