该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在现实世界部署中面临的高计算成本和效率挑战。研究背景是:VLA模型在自然语言驱动的感知与控制方面表现出色,但其不同阶段(观察、动作生成和执行)必须顺序执行,导致系统频繁停顿和高延迟,尤其在资源受限的边缘平台上问题显著。
论文提出了一种名为StreamingVLA的流式VLA模型,采用两种关键技术:
- 采用动作流匹配(action flow matching)方法,替代传统的动作分块(action chunking)方式,学习动作流的轨迹而非对分块动作进行去噪,从而将动作生成与执行的延迟重叠。
- 设计了一种动作显著性感知的自适应观察(action saliency-aware adaptive observation)机制,根据动作的显著性动态调整观察频率,从而将执行与观察的延迟重叠。
论文的核心创新点在于:
- 首次系统性地分析了VLA模型在流式生成中的挑战,并提出了一种异步并行化VLA各阶段的“流式”执行范式,突破了传统顺序执行的瓶颈。
- 创新性地将动作流匹配引入VLA领域,避免了动作分块带来的依赖,实现了更流畅的动作轨迹生成。
- 提出了自适应早期观察机制,根据动作显著性动态调整观察策略,而非固定频率,实现了延迟重叠的智能化。
论文对该领域的整体贡献是:
- 提出并验证了StreamingVLA框架,在不牺牲性能的前提下,显著提升了VLA模型的执行效率和流畅性。
- 实现了2.4倍的延迟加速,并将执行停顿减少了6.5倍,为VLA模型在边缘设备上的实时部署提供了可行的解决方案。
- 为流式多模态动作生成开辟了新的研究方向,即通过异步并行化和延迟重叠来优化系统级性能。