ALAM：视觉-语言-动作模型的代数一致潜变量转换

📝 论文摘要

视觉-语言-动作（VLA）模型仍受限于带动作标注的机器人数据匮乏，而无动作视频提供了物理世界变化的丰富证据。潜在动作模型为从视频中提取此类先验知识提供了有前景的方案，但基于重建训练的潜在编码未必适用于策略生成——它们可能预测未来观测，却缺乏可重复使用或与机器人动作连贯生成所需的结构。我们提出ALAM（代数潜在动作模型），一种代数一致的潜在动作模型，可将无动作视频中的时序关系转化为结构化监督。基于帧三元组，ALAM学习由重建驱动且受组合一致性与可逆一致性约束的潜在迁移，从而鼓励局部可加的迁移空间。在下游VLA学习中，我们冻结预训练编码器，将其潜在迁移序列作为辅助生成目标，与机器人动作在联合流匹配目标下共同生成。该机制将结构化的潜在迁移与基于流的策略生成耦合，使策略能够利用ALAM局部一致的迁移几何特性，而无需潜在-动作解码。表征探测表明，相较于无结构潜在动作基线，ALAM将加性误差与可逆性误差降低25-85倍，并提升长时序累积重建质量。当迁移至VLA策略时，ALAM在MetaWorld MT50上将平均成功率从47.9%提升至85.0%，在LIBERO上从94.1%提升至98.1%，并在真实世界操作任务中取得持续增益。消融实验进一步证实，代数结构化的潜在迁移与联合流匹配的协同效应带来了最显著的改进。

🎯 研究动机

- **视觉-语言-动作(Vision-Language-Action, VLA)** 模型受限于动作标注的机器人数据稀缺，而**无动作视频** 提供了丰富的物理世界变化证据 - 现有**潜在动作模型(latent action models)** 能从视频提取先验，但基于重建训练的潜在代码缺乏**结构性质**，难以直接被策略重用或与机器人动作连贯生成

🔧 核心方法

- 提出**ALAM(Algebraic Latent Action Model)**，一种代数一致潜在动作模型 - 给定帧三元组，ALAM学习由**重建损失** 支撑的潜在转换，同时通过**组合一致性(composition consistency)** 和**反转一致性(reversal consistency)** 正则化，鼓励局部可加的转换空间 - 下游VLA学习时，冻结预训练编码器，使用其**潜在转换序列** 作为辅助生成目标，在**联合流匹配(joint flow-matching)** 目标下与机器人动作共同生成，无需潜在到动作的解码

💡 核心创新

- **首次引入代数一致性**：将组合和反转约束作用于潜在转换，使潜在空间具有**局部可加性(locally additive)**，这是对传统纯重建潜在动作模型的结构化改进 - **联合流匹配生成**：将结构化潜在转换序列与机器人动作在**流匹配(flow-matching)** 框架下联合生成，实现潜在几何与策略生成的协同，避免了额外的潜在到动作的解码器

🏆 总体贡献

- 在表示探针实验中，ALAM将**可加性(additivity)** 和**可逆性(reversibility)** 误差降低**25–85倍**，并改善**长视野累积重建** 性能 - 在**MetaWorld MT50** 上平均成功率从47.9%提升至85.0%，在**LIBERO** 上从94.1%提升至98.1%，在**真实操作任务** 上取得一致增益 - 消融实验证实，最大改进来自**代数结构化潜在转换** 与**联合流匹配** 的协同作用，为无动作视频利用提供了新范式

ALAM：视觉-语言-动作模型的代数一致潜变量转换
ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models

📊 核心分析

ALAM：视觉-语言-动作模型的代数一致潜变量转换 ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models

📊 核心分析

ALAM：视觉-语言-动作模型的代数一致潜变量转换
ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models