$π_0$-EqM：闭环视觉-语言-动作控制的均衡匹配

📝 论文摘要

当前，视觉-语言-动作（Vision-Language-Action, VLA）模型因其在任务泛化方面的巨大潜力，已成为机器人操作领域最广泛采用的范式。尽管多数用于VLA控制的生成式流匹配动作解码器通常采用固定采样范围进行部署，这限制了不同控制周期中基于状态的算力分配与时间复用。我们提出$π_0$-EqM模型，该模型在不改变上游VLA堆栈的前提下，将$π_0$中的流匹配专家替换为均衡匹配（Equilibrium Matching, EqM）解码器。在匹配的300步预算下，$π_0$-EqM在19项任务中将RoboTwin的平均成功率从40.4%提升至50.2%，并在LIBERO基准上保持竞争力，其中在LIBERO-10任务中取得最显著增益（87.0%）。两次阈值扫描揭示了残差与成功率之间存在任务依赖的非单调关系，我们将其定义为平稳性-可执行性差距。研究结果表明，迭代VLA控制中的推理深度属于策略设计的一部分，并由此引入基于能量的VLA视角，这可能为未来跨任务与跨本体的可组合动作生成研究提供启示。

🎯 研究动机

- 当前**视觉-语言-动作(Vision-Language-Action, VLA)** 模型广泛用于机器人操作，但大多数基于**生成式流匹配(flow-matching)** 的动作解码器使用**固定采样步数(fixed sampling horizons)**，限制了状态依赖的计算和跨控制周期的时间复用。 - 现有方法无法根据任务复杂度和状态自适应调整推断深度，导致性能受限，尤其是在闭环控制中需要灵活的计算分配。

🔧 核心方法

- 提出**$π_0$-EqM** 框架，用**均衡匹配(Equilibrium Matching, EqM)** 解码器替换原始$π_0$中的流匹配专家，保持上游VLA骨干网络不变。 - EqM解码器通过迭代均衡求解实现闭式动作生成，可能基于**能量模型(energy-based model)**，允许在控制周期内动态调整推断步数。 - 在300步计算预算下进行匹配实验，评估了RoboTwin（19个任务）和LIBERO等基准。

💡 核心创新

- **首次将推断深度视为策略设计的一部分**：通过阈值扫描发现任务依赖的非单调关系（**平稳性-可执行性缺口(stationarity-executability gap)**），表明残差与成功率之间不是简单正比关系。 - **提出基于能量的VLA视角**：引入**能量模型(energy-based model)** 解释动作生成，为未来跨任务和跨形态的可组合动作生成提供理论基础。 - **闭环自适应推断**：相比固定步数的流匹配，EqM能根据状态和任务自动调整计算深度，实现更高效的资源利用。

🏆 总体贡献

- **性能提升**：在相同计算预算（300步）下，$π_0$-EqM在RoboTwin基准上将平均成功率从40.4%提升至50.2%，在LIBERO-10上达到87.0%，验证了方法有效性。 - **发现新现象**：揭示**平稳性-可执行性缺口(stationarity-executability gap)**，为理解闭环VLA控制中的计算-性能权衡提供新洞察。 - **开辟新研究方向**：提出能量基VLA视角，推动未来在可组合动作生成、跨任务泛化和跨形态迁移上的探索。

$π_0$-EqM：闭环视觉-语言-动作控制的均衡匹配
$π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control

📊 核心分析

$π_0$-EqM：闭环视觉-语言-动作控制的均衡匹配 $π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control

📊 核心分析

$π_0$-EqM：闭环视觉-语言-动作控制的均衡匹配
$π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control