- 解决自回归(AR)视觉-语言-动作(VLA)模型因顺序解码导致的高推理延迟和长程任务中的误差累积问题
- 离散扩散语言模型(dLLMs)虽能并行细化但受限于多次去噪函数评估(NFEs)和双向迭代解码中KV缓存难以直接应用
- 现有方法难以有效结合AR大模型的预训练优势与扩散模型的并行生成效率
- 提出**BlockVLA** 框架,通过**块扩散(Block Diffusion)** 微调将预训练AR骨干适配为高效离散扩散策略
- 在**块级(block level)** 保持自回归依赖,同时在每个块内实现**并行去噪(parallel denoising)**,结合全局因果连贯与局部并行生成
- 利用**前缀KV缓存重用(prefix KV-cache reuse)** 跨已完成块,减少迭代去噪的有效计算成本
- **首创性**:首次将**块扩散(Block Diffusion)** 范式用于从大规模预训练AR模型到扩散策略的迁移,实现平滑过渡
- **效率提升**:相比标准离散扩散基线实现**3.3倍推理加速**,且训练收敛速度显著更快,尤其在复杂长程任务中早期训练即取得重大性能提升
- **架构设计**:通过块内并行与块间因果的混合解码模式,同时保持全局任务一致性和局部生成效率
- 建立**块扩散(Block Diffusion)** 作为连接大规模预训练AR模型与高效实时机器人控制的鲁棒桥梁
- 在**LIBERO** 和**SimplerEnv** 基准上验证了显著的推理加速和训练效率优势
- 为机器人高频控制任务提供了一种可实际部署的新范式,减少延迟同时维持高成功率