← 返回论文列表

$π_0$-EqM:闭环视觉-语言-动作控制的均衡匹配
$π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control

作者: Huanming Liu, Congsheng Xu, Jianmin Ji 等4人
arXiv: 2605.23128v1
分类: cs.RO
📝 论文摘要
当前,视觉-语言-动作(Vision-Language-Action, VLA)模型因其在任务泛化方面的巨大潜力,已成为机器人操作领域最广泛采用的范式。尽管多数用于VLA控制的生成式流匹配动作解码器通常采用固定采样范围进行部署,这限制了不同控制周期中基于状态的算力分配与时间复用。我们提出$π_0$-EqM模型,该模型在不改变上游VLA堆栈的前提下,将$π_0$中的流匹配专家替换为均衡匹配(Equilibrium Matching, EqM)解码器。在匹配的300步预算下,$π_0$-EqM在19项任务中将RoboTwin的平均成功率从40.4%提升至50.2%,并在LIBERO基准上保持竞争力,其中在LIBERO-10任务中取得最显著增益(87.0%)。两次阈值扫描揭示了残差与成功率之间存在任务依赖的非单调关系,我们将其定义为平稳性-可执行性差距。研究结果表明,迭代VLA控制中的推理深度属于策略设计的一部分,并由此引入基于能量的VLA视角,这可能为未来跨任务与跨本体的可组合动作生成研究提供启示。

📊 核心分析

🎯 研究动机
- 当前**视觉-语言-动作(Vision-Language-Action, VLA)** 模型广泛用于机器人操作,但大多数基于**生成式流匹配(flow-matching)** 的动作解码器使用**固定采样步数(fixed sampling horizons)**,限制了状态依赖的计算和跨控制周期的时间复用。 - 现有方法无法根据任务复杂度和状态自适应调整推断深度,导致性能受限,尤其是在闭环控制中需要灵活的计算分配。
🔧 核心方法
- 提出**$π_0$-EqM** 框架,用**均衡匹配(Equilibrium Matching, EqM)** 解码器替换原始$π_0$中的流匹配专家,保持上游VLA骨干网络不变。 - EqM解码器通过迭代均衡求解实现闭式动作生成,可能基于**能量模型(energy-based model)**,允许在控制周期内动态调整推断步数。 - 在300步计算预算下进行匹配实验,评估了RoboTwin(19个任务)和LIBERO等基准。
💡 核心创新
- **首次将推断深度视为策略设计的一部分**:通过阈值扫描发现任务依赖的非单调关系(**平稳性-可执行性缺口(stationarity-executability gap)**),表明残差与成功率之间不是简单正比关系。 - **提出基于能量的VLA视角**:引入**能量模型(energy-based model)** 解释动作生成,为未来跨任务和跨形态的可组合动作生成提供理论基础。 - **闭环自适应推断**:相比固定步数的流匹配,EqM能根据状态和任务自动调整计算深度,实现更高效的资源利用。
🏆 总体贡献
- **性能提升**:在相同计算预算(300步)下,$π_0$-EqM在RoboTwin基准上将平均成功率从40.4%提升至50.2%,在LIBERO-10上达到87.0%,验证了方法有效性。 - **发现新现象**:揭示**平稳性-可执行性缺口(stationarity-executability gap)**,为理解闭环VLA控制中的计算-性能权衡提供新洞察。 - **开辟新研究方向**:提出能量基VLA视角,推动未来在可组合动作生成、跨任务泛化和跨形态迁移上的探索。