← 返回论文列表

D-VLA:一个用于视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models

作者: Yucheng Guo, Yongjian Guo, Zhong Guan 等12人
arXiv: 2605.13276v1
分类: cs.AI, cs.RO
📝 论文摘要
具身人工智能的快速演进使得视觉-语言-动作(VLA)模型在多模态感知与任务执行中表现出色。然而,在大规模分布式环境中对这些巨型模型应用强化学习(RL)面临严重的系统瓶颈,其主要根源在于高保真物理仿真与深度学习密集的VRAM/带宽需求之间的资源冲突,这种冲突常导致整体吞吐量受限于执行阶段的低效性。为应对这些挑战,我们提出D-VLA——一种面向大规模具身基础模型的高并发低延迟分布式强化学习框架。D-VLA引入“平面解耦”机制,将高频训练数据与低频权重控制物理隔离,消除仿真与优化之间的干扰。我们进一步设计了一个四线程异步“泳道”流水线,实现采样、推理、梯度计算与参数分布的完全并行重叠。此外,通过双池VRAM管理模型与拓扑感知复制,解决了内存碎片化问题并优化了通信效率。在LIBERO等基准测试上的实验表明,D-VLA在十亿参数VLA模型的吞吐量与采样效率上显著优于主流RL框架。在万亿参数可扩展性测试中,我们的框架保持了卓越的稳定性与线性加速比,为高性能通用具身智能体提供了稳健的系统支持。

📊 核心分析

🎯 研究动机
- 解决了**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在**大规模分布式强化学习(reinforcement learning)** 中面临的严重系统瓶颈 - 高保真物理模拟与深度学习密集的VRAM/带宽需求之间存在**资源冲突**,导致整体吞吐量受限于执行阶段低效 - 现有主流强化学习框架在处理**亿级至万亿参数** 的VLA模型时,吞吐量和采样效率不足
🔧 核心方法
- 提出**平面解耦(Plane Decoupling)** 策略,物理隔离高频训练数据与低频权重控制,消除仿真与优化之间的干扰 - 设计**四线程异步泳道(Swimlane)流水线**,实现采样、推理、梯度计算和参数分布的完全并行重叠 - 引入**双池VRAM管理模型(dual-pool VRAM management)** 和**拓扑感知复制(topology-aware replication)**,解决内存碎片并优化通信效率
💡 核心创新
- **首创平面解耦架构**:物理分离仿真与优化,突破传统框架中资源冲突导致的吞吐量瓶颈 - **异步四线程泳道流水线**:相比现有同步/半同步框架,实现更高并发和更低延迟 - **系统级内存与通信优化**:双池VRAM管理和拓扑感知复制,针对性解决大规模模型的内存和通信挑战 - **可扩展性**:在万亿参数规模下仍保持线性加速和稳定性,远超主流强化学习框架
🏆 总体贡献
- 为大规模**具身智能(Embodied AI)** 基础模型提供了一种**高并发、低延迟** 的分布式强化学习系统范式 - 在**LIBERO** 等基准上显著提升亿级参数VLA模型的吞吐量和采样效率 - 验证了所提方法在**万亿参数** 规模下的可扩展性,为构建高性能通用具身智能体奠定系统基础