该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型因显式动作数据稀缺而受限的问题。研究背景是:人类动作视频虽提供了可扩展但无标签的数据源,但如何将其视觉信号转化为独立于本体论(Ontology)的潜在动作(latent action)表示,以及这种表示能否从视觉观察中推导出鲁棒的控制策略,尚未得到严格评估。
论文提出了潜在动作表示生成(Latent Action Representation Yielding, LARY)基准(Benchmark),这是一个统一的评估框架。
- 用于评估潜在动作表示在高层语义动作(做什么)和低层机器人控制(如何做)两方面的性能。
- 构建了一个综合数据集,包含超过100万个视频(1000小时)、151个动作类别,以及62万张图像对和59.5万条运动轨迹,覆盖多样化的具身(embodiment)和环境。
- 通过实验对比了通用视觉基础模型(visual foundation models)与专门的具身潜在动作模型(embodied latent action models)的性能。
论文的核心创新点在于:
- **提出了首个用于评估视觉到动作对齐中潜在动作表示通用性的基准(LARY Benchmark)**,统一了语义动作和机器人控制两个层面的评估。
- **通过大规模实验得出了两个颠覆性发现**:
1. 未经任何动作监督训练的通用视觉基础模型,在性能上持续优于专门的具身潜在动作模型。
2. 基于潜在表示(latent-based)的视觉空间,比基于像素(pixel-based)的空间与物理动作空间(physical action space)的对齐度更高。
- **提出了新的理论见解**:通用视觉表征本身已编码了与物理控制相关的动作知识,且语义级抽象(semantic-level abstraction)是从视觉到动作比像素级重建(pixel-level reconstruction)更有效的根本途径。
论文对该领域的整体贡献是:
- 建立了一个标准化、大规模的基准和数据集,为评估视觉到动作对齐中潜在动作表示的通用性提供了统一平台。
- 通过实证研究挑战了现有认知,揭示了通用视觉模型在动作理解上的潜在优势,以及语义抽象相对于像素重建的优越性。
- 为未来视觉-动作模型的研究指明了新方向:应更关注挖掘通用视觉表征中的动作知识,并利用语义级抽象作为连接视觉与动作的更有效桥梁。