BlockVLA：通过块扩散微调加速自回归VLA

BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

作者: Ruiheng Wang, Shuanghao Bai, Haoran Zhang 等5人

arXiv: 2605.13382v1

分类: cs.RO

📝 论文摘要

尽管自回归（AR）视觉-语言-动作（VLA）模型在机器人任务中展现出强大的推理能力，但其顺序解码过程通常导致高推理延迟，并可能在长时间执行过程中放大错误积累。离散扩散语言模型（dLLMs）通过并行令牌优化提供了一种有前景的替代方案，但其在机器人实际部署中仍受限于重复的去噪函数评估（NFEs）以及将标准KV缓存直接应用于双向迭代解码的困难。为桥接这些范式，我们提出BlockVLA，一种通过块扩散范式将预训练AR骨干模型适配为高效离散扩散策略的框架。BlockVLA在块级别保持自回归依赖关系，同时支持每个块内的并行去噪，从而结合全局因果一致性与局部并行生成。该设计使得已完成块的前缀KV缓存得以复用，降低了迭代去噪的有效成本，并实现了从AR预训练到基于扩散的策略微调的更平滑过渡。我们在LIBERO和SimplerEnv基准上进行了广泛评估。实验结果表明，我们的BlockVLA相比标准离散扩散基线实现了3.3倍的推理加速。此外，我们的模型展现出更优的训练效率，成功率收敛速度显著快于基线，这一优势在复杂、长时域任务中尤为突出，BlockVLA在训练早期即取得显著的性能提升。本工作确立了块扩散作为大规模预训练AR模型与高效、高频率实时机器人控制之间的稳健桥梁。

📊 核心分析

🎯 研究动机

- 解决自回归(AR)视觉-语言-动作(VLA)模型因顺序解码导致的高推理延迟和长程任务中的误差累积问题 - 离散扩散语言模型(dLLMs)虽能并行细化但受限于多次去噪函数评估(NFEs)和双向迭代解码中KV缓存难以直接应用 - 现有方法难以有效结合AR大模型的预训练优势与扩散模型的并行生成效率

🔧 核心方法

- 提出**BlockVLA** 框架，通过**块扩散(Block Diffusion)** 微调将预训练AR骨干适配为高效离散扩散策略 - 在**块级(block level)** 保持自回归依赖，同时在每个块内实现**并行去噪(parallel denoising)**，结合全局因果连贯与局部并行生成 - 利用**前缀KV缓存重用(prefix KV-cache reuse)** 跨已完成块，减少迭代去噪的有效计算成本

💡 核心创新

- **首创性**：首次将**块扩散(Block Diffusion)** 范式用于从大规模预训练AR模型到扩散策略的迁移，实现平滑过渡 - **效率提升**：相比标准离散扩散基线实现**3.3倍推理加速**，且训练收敛速度显著更快，尤其在复杂长程任务中早期训练即取得重大性能提升 - **架构设计**：通过块内并行与块间因果的混合解码模式，同时保持全局任务一致性和局部生成效率

🏆 总体贡献

- 建立**块扩散(Block Diffusion)** 作为连接大规模预训练AR模型与高效实时机器人控制的鲁棒桥梁 - 在**LIBERO** 和**SimplerEnv** 基准上验证了显著的推理加速和训练效率优势 - 为机器人高频控制任务提供了一种可实际部署的新范式，减少延迟同时维持高成功率