- **视觉-语言-动作(Vision-Language-Action, VLA)** 模型受限于动作标注的机器人数据稀缺,而**无动作视频** 提供了丰富的物理世界变化证据
- 现有**潜在动作模型(latent action models)** 能从视频提取先验,但基于重建训练的潜在代码缺乏**结构性质**,难以直接被策略重用或与机器人动作连贯生成
- 提出**ALAM(Algebraic Latent Action Model)**,一种代数一致潜在动作模型
- 给定帧三元组,ALAM学习由**重建损失** 支撑的潜在转换,同时通过**组合一致性(composition consistency)** 和**反转一致性(reversal consistency)** 正则化,鼓励局部可加的转换空间
- 下游VLA学习时,冻结预训练编码器,使用其**潜在转换序列** 作为辅助生成目标,在**联合流匹配(joint flow-matching)** 目标下与机器人动作共同生成,无需潜在到动作的解码
- **首次引入代数一致性**:将组合和反转约束作用于潜在转换,使潜在空间具有**局部可加性(locally additive)**,这是对传统纯重建潜在动作模型的结构化改进
- **联合流匹配生成**:将结构化潜在转换序列与机器人动作在**流匹配(flow-matching)** 框架下联合生成,实现潜在几何与策略生成的协同,避免了额外的潜在到动作的解码器
- 在表示探针实验中,ALAM将**可加性(additivity)** 和**可逆性(reversibility)** 误差降低**25–85倍**,并改善**长视野累积重建** 性能
- 在**MetaWorld MT50** 上平均成功率从47.9%提升至85.0%,在**LIBERO** 上从94.1%提升至98.1%,在**真实操作任务** 上取得一致增益
- 消融实验证实,最大改进来自**代数结构化潜在转换** 与**联合流匹配** 的协同作用,为无动作视频利用提供了新范式