← 返回论文列表

BlockVLA:通过块扩散微调加速自回归VLA
BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

作者: Ruiheng Wang, Shuanghao Bai, Haoran Zhang 等5人
arXiv: 2605.13382v1
分类: cs.RO
📝 论文摘要
尽管自回归(AR)视觉-语言-动作(VLA)模型在机器人任务中展现出强大的推理能力,但其顺序解码过程通常导致高推理延迟,并可能在长时间执行过程中放大错误积累。离散扩散语言模型(dLLMs)通过并行令牌优化提供了一种有前景的替代方案,但其在机器人实际部署中仍受限于重复的去噪函数评估(NFEs)以及将标准KV缓存直接应用于双向迭代解码的困难。为桥接这些范式,我们提出BlockVLA,一种通过块扩散范式将预训练AR骨干模型适配为高效离散扩散策略的框架。BlockVLA在块级别保持自回归依赖关系,同时支持每个块内的并行去噪,从而结合全局因果一致性与局部并行生成。该设计使得已完成块的前缀KV缓存得以复用,降低了迭代去噪的有效成本,并实现了从AR预训练到基于扩散的策略微调的更平滑过渡。我们在LIBERO和SimplerEnv基准上进行了广泛评估。实验结果表明,我们的BlockVLA相比标准离散扩散基线实现了3.3倍的推理加速。此外,我们的模型展现出更优的训练效率,成功率收敛速度显著快于基线,这一优势在复杂、长时域任务中尤为突出,BlockVLA在训练早期即取得显著的性能提升。本工作确立了块扩散作为大规模预训练AR模型与高效、高频率实时机器人控制之间的稳健桥梁。

📊 核心分析

🎯 研究动机
- 解决自回归(AR)视觉-语言-动作(VLA)模型因顺序解码导致的高推理延迟和长程任务中的误差累积问题 - 离散扩散语言模型(dLLMs)虽能并行细化但受限于多次去噪函数评估(NFEs)和双向迭代解码中KV缓存难以直接应用 - 现有方法难以有效结合AR大模型的预训练优势与扩散模型的并行生成效率
🔧 核心方法
- 提出**BlockVLA** 框架,通过**块扩散(Block Diffusion)** 微调将预训练AR骨干适配为高效离散扩散策略 - 在**块级(block level)** 保持自回归依赖,同时在每个块内实现**并行去噪(parallel denoising)**,结合全局因果连贯与局部并行生成 - 利用**前缀KV缓存重用(prefix KV-cache reuse)** 跨已完成块,减少迭代去噪的有效计算成本
💡 核心创新
- **首创性**:首次将**块扩散(Block Diffusion)** 范式用于从大规模预训练AR模型到扩散策略的迁移,实现平滑过渡 - **效率提升**:相比标准离散扩散基线实现**3.3倍推理加速**,且训练收敛速度显著更快,尤其在复杂长程任务中早期训练即取得重大性能提升 - **架构设计**:通过块内并行与块间因果的混合解码模式,同时保持全局任务一致性和局部生成效率
🏆 总体贡献
- 建立**块扩散(Block Diffusion)** 作为连接大规模预训练AR模型与高效实时机器人控制的鲁棒桥梁 - 在**LIBERO** 和**SimplerEnv** 基准上验证了显著的推理加速和训练效率优势 - 为机器人高频控制任务提供了一种可实际部署的新范式,减少延迟同时维持高成功率