← 返回论文列表

从像素到标记:视觉-语言-动作模型中潜在动作监督的系统研究
From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

作者: Yihan Lin, Haoyang Li, Yang Li 等7人
arXiv: 2605.04678v1
分类: cs.RO, cs.CV
📝 论文摘要
潜在动作作为一种中间表示,能够支持跨越异构数据集的视觉-语言-动作(VLA)模型进行一致性建模。然而,当前用于监督VLA的潜在动作方法较为分散,缺乏系统性比较。本研究从两个视角系统梳理了潜在动作监督:(i) 通过基于图像的潜在动作对轨迹进行正则化;(ii) 通过基于动作的潜在动作统一目标空间。在统一的VLA基线框架下,我们实例化并比较了四种代表性集成策略。结果表明存在公式化-任务对应关系:基于图像的潜在动作有利于长程推理与场景级泛化,而基于动作的潜在动作在复杂运动协调方面表现更优。此外,我们发现直接用离散潜在动作令牌监督VLM可获得最优性能。最后,实验初步揭示了潜在动作监督在混合数据中的优势,为VLA训练指明了有前景的方向。代码见 https://github.com/RUCKBReasoning/From_Pixels_to_Tokens。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在异构数据集上使用**潜在动作(Latent Action)** 监督时缺乏系统性比较的问题 - 现有方法对VLA进行潜在动作监督的方式分散且不统一 - 研究背景:潜在动作作为中间表示可以统一建模跨数据集的一致表征,但如何有效监督尚不明确
🔧 核心方法
- 从两个视角系统研究潜在动作监督:**(i) 基于图像的潜在动作(image-based latent action)** 用于正则化轨迹;**(ii) 基于动作的潜在动作(action-based latent action)** 用于统一目标空间 - 在统一的**VLA基线(VLA baseline)** 下实例化并比较四种代表性集成策略 - 通过实验揭示**配方-任务对应关系(formulation-task correspondence)** 并分析混合数据训练效果
💡 核心创新
- **系统性对比**:首次在统一基线框架下系统比较多种潜在动作监督集成策略 - **发现配方-任务对应关系**:基于图像的潜在动作有利于**长程推理(long-horizon reasoning)** 和**场景级泛化(scene-level generalization)**,基于动作的潜在动作擅长**复杂运动协调(complex motor coordination)** - **有效性发现**:直接使用**离散潜在动作令牌(discrete latent action tokens)** 监督VLM实现最有效性能 - **混合数据训练洞察**:提供潜在动作监督在混合数据中优势的初步见解
🏆 总体贡献
- 为VLA领域提供潜在动作监督的系统性研究框架和比较结果 - 揭示不同潜在动作公式与任务类型的对应关系,指导实际选择 - 明确有效训练策略:直接离散潜在动作令牌监督 - 开源代码促进社区复现与后续研究