LARY：一种潜在动作表示基准，用于实现可泛化的视觉到动作对齐

📝 论文摘要

尽管显性动作数据的短缺限制了视觉-语言-动作（VLA）模型的发展，人类动作视频却提供了一个可扩展但未标注的数据源。利用大规模人类视频数据集的一个关键挑战在于将视觉信号转化为独立于本体论的表示，即潜在动作。然而，潜在动作表示从视觉观察中推导出稳健控制的能力尚未得到严格评估。我们引入了潜在动作表示生成（LARY）基准，这是一个统一的框架，用于评估潜在动作表示在高层语义动作（做什么）和低层机器人控制（如何做）上的表现。精心策划的数据集包含超过一百万段视频（1000小时），涵盖151个动作类别，以及62万张图像对和59.5万条运动轨迹，覆盖了多样化的实体和环境。我们的实验揭示了两个关键发现：（i）未经任何动作监督训练的一般视觉基础模型，始终优于专门的实体潜在动作模型。（ii）基于潜在表示的视觉空间在本质上比基于像素的空间更贴近物理动作空间。这些结果表明，一般视觉表示内在地编码了物理控制相关的动作知识，并且语义层面的抽象作为从视觉到动作的路径，本质上比像素层面的重建更为有效。

🎯 研究动机

该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型因显式动作数据稀缺而受限的问题。研究背景是：人类动作视频虽提供了可扩展但无标签的数据源，但如何将其视觉信号转化为独立于本体论(Ontology)的潜在动作(latent action)表示，以及这种表示能否从视觉观察中推导出鲁棒的控制策略，尚未得到严格评估。

🔧 核心方法

论文提出了潜在动作表示生成(Latent Action Representation Yielding, LARY)基准(Benchmark)，这是一个统一的评估框架。 - 用于评估潜在动作表示在高层语义动作（做什么）和低层机器人控制（如何做）两方面的性能。 - 构建了一个综合数据集，包含超过100万个视频（1000小时）、151个动作类别，以及62万张图像对和59.5万条运动轨迹，覆盖多样化的具身(embodiment)和环境。 - 通过实验对比了通用视觉基础模型(visual foundation models)与专门的具身潜在动作模型(embodied latent action models)的性能。

💡 核心创新

论文的核心创新点在于： - **提出了首个用于评估视觉到动作对齐中潜在动作表示通用性的基准(LARY Benchmark)**，统一了语义动作和机器人控制两个层面的评估。 - **通过大规模实验得出了两个颠覆性发现**： 1. 未经任何动作监督训练的通用视觉基础模型，在性能上持续优于专门的具身潜在动作模型。 2. 基于潜在表示(latent-based)的视觉空间，比基于像素(pixel-based)的空间与物理动作空间(physical action space)的对齐度更高。 - **提出了新的理论见解**：通用视觉表征本身已编码了与物理控制相关的动作知识，且语义级抽象(semantic-level abstraction)是从视觉到动作比像素级重建(pixel-level reconstruction)更有效的根本途径。

🏆 总体贡献

论文对该领域的整体贡献是： - 建立了一个标准化、大规模的基准和数据集，为评估视觉到动作对齐中潜在动作表示的通用性提供了统一平台。 - 通过实证研究挑战了现有认知，揭示了通用视觉模型在动作理解上的潜在优势，以及语义抽象相对于像素重建的优越性。 - 为未来视觉-动作模型的研究指明了新方向：应更关注挖掘通用视觉表征中的动作知识，并利用语义级抽象作为连接视觉与动作的更有效桥梁。

LARY：一种潜在动作表示基准，用于实现可泛化的视觉到动作对齐
LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

📊 核心分析

LARY：一种潜在动作表示基准，用于实现可泛化的视觉到动作对齐 LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

📊 核心分析

LARY：一种潜在动作表示基准，用于实现可泛化的视觉到动作对齐
LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment