- 解决**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在异构数据集上使用**潜在动作(Latent Action)** 监督时缺乏系统性比较的问题
- 现有方法对VLA进行潜在动作监督的方式分散且不统一
- 研究背景:潜在动作作为中间表示可以统一建模跨数据集的一致表征,但如何有效监督尚不明确
- 从两个视角系统研究潜在动作监督:**(i) 基于图像的潜在动作(image-based latent action)** 用于正则化轨迹;**(ii) 基于动作的潜在动作(action-based latent action)** 用于统一目标空间
- 在统一的**VLA基线(VLA baseline)** 下实例化并比较四种代表性集成策略
- 通过实验揭示**配方-任务对应关系(formulation-task correspondence)** 并分析混合数据训练效果
- **系统性对比**:首次在统一基线框架下系统比较多种潜在动作监督集成策略
- **发现配方-任务对应关系**:基于图像的潜在动作有利于**长程推理(long-horizon reasoning)** 和**场景级泛化(scene-level generalization)**,基于动作的潜在动作擅长**复杂运动协调(complex motor coordination)**
- **有效性发现**:直接使用**离散潜在动作令牌(discrete latent action tokens)** 监督VLM实现最有效性能
- **混合数据训练洞察**:提供潜在动作监督在混合数据中优势的初步见解
- 为VLA领域提供潜在动作监督的系统性研究框架和比较结果
- 揭示不同潜在动作公式与任务类型的对应关系,指导实际选择
- 明确有效训练策略:直接离散潜在动作令牌监督
- 开源代码促进社区复现与后续研究