- 当前**视觉-语言-动作(Vision-Language-Action, VLA)** 模型广泛用于机器人操作,但大多数基于**生成式流匹配(flow-matching)** 的动作解码器使用**固定采样步数(fixed sampling horizons)**,限制了状态依赖的计算和跨控制周期的时间复用。
- 现有方法无法根据任务复杂度和状态自适应调整推断深度,导致性能受限,尤其是在闭环控制中需要灵活的计算分配。
- 提出**$π_0$-EqM** 框架,用**均衡匹配(Equilibrium Matching, EqM)** 解码器替换原始$π_0$中的流匹配专家,保持上游VLA骨干网络不变。
- EqM解码器通过迭代均衡求解实现闭式动作生成,可能基于**能量模型(energy-based model)**,允许在控制周期内动态调整推断步数。
- 在300步计算预算下进行匹配实验,评估了RoboTwin(19个任务)和LIBERO等基准。
- **首次将推断深度视为策略设计的一部分**:通过阈值扫描发现任务依赖的非单调关系(**平稳性-可执行性缺口(stationarity-executability gap)**),表明残差与成功率之间不是简单正比关系。
- **提出基于能量的VLA视角**:引入**能量模型(energy-based model)** 解释动作生成,为未来跨任务和跨形态的可组合动作生成提供理论基础。
- **闭环自适应推断**:相比固定步数的流匹配,EqM能根据状态和任务自动调整计算深度,实现更高效的资源利用。
- **性能提升**:在相同计算预算(300步)下,$π_0$-EqM在RoboTwin基准上将平均成功率从40.4%提升至50.2%,在LIBERO-10上达到87.0%,验证了方法有效性。
- **发现新现象**:揭示**平稳性-可执行性缺口(stationarity-executability gap)**,为理解闭环VLA控制中的计算-性能权衡提供新洞察。
- **开辟新研究方向**:提出能量基VLA视角,推动未来在可组合动作生成、跨任务泛化和跨形态迁移上的探索。