跨XPU的视觉-语言-动作模型表征：机器人上部署的约束与加速

📝 论文摘要

视觉-语言-动作（VLA）模型在通用机器人控制领域展现出巨大潜力，但其在机器人上的实际部署受限于严格成本与能耗预算下的实时推理瓶颈。现有研究大多基于桌面级GPU进行评估，掩盖了异构边缘加速器（GPU/XPU/NPU）带来的性能折衷与潜在机遇。本文通过模型-硬件协同表征分析，提出了一种低成本的VLA部署系统化方案。首先，我们构建了跨加速器性能排行榜，并在CET（成本、能耗、时间）框架下评估了模型-硬件组合，结果表明：在满足控制频率约束的前提下，适当配置的边缘设备可具备比旗舰级GPU更高的成本与能效优势。其次，通过深度性能剖析，我们揭示出模型推理中一致的两阶段模式：计算受限的VLM主干网络之后紧跟着存储受限的动作执行器，这种阶段依赖性导致资源利用率不足与硬件效率低下。最后，基于上述发现，我们提出DP-Cache与V-AEFusion方法，分别用于减少扩散模型冗余与实现异步流水线并行，在GPU上实现高达2.9倍加速，在边缘NPU上实现6倍加速，且任务成功率几乎无衰减。示例排行榜网站地址：https://vla-leaderboard-01.vercel.app/。

🎯 研究动机

- **视觉-语言-动作(VLA)**模型在通用机器人控制方面前景广阔，但**机载部署(on-robot deployment)**受限于实时推理以及严格的成本和能耗预算 - 现有评估大多依赖桌面级GPU，掩盖了异构边缘加速器（如**XPU/NPU**）带来的权衡与机会 - 缺乏对低成本VLA部署的系统分析，特别是模型与硬件的协同特征化

🔧 核心方法

- 构建了一个跨加速器排行榜，并在**CET(成本、能耗、时间)**指标下评估模型-硬件组合，发现合适的边缘设备在满足控制率约束的同时比旗舰GPU更具成本/能效 - 通过深度性能剖析，揭示了一致的**两阶段推理模式(two-phase inference pattern)**：计算密集的**视觉-语言模型(VLM)骨干(backbone)** 后接内存密集的**动作专家(Action Expert)**，导致阶段相关的低利用率和硬件低效 - 基于这些洞察，提出**DP-Cache**（减少扩散冗余）和**V-AEFusion**（实现异步流水线并行），在GPU上实现高达2.9倍加速，在边缘NPU上实现6倍加速，且成功率仅轻微下降

💡 核心创新

- **首次系统性跨XPU特征化**：全面评估多种边缘加速器（GPU/XPU/NPU）上的VLA模型，超越了仅基于桌面GPU的局限 - **发现两阶段推理模式**：识别出**VLM骨干**与**动作专家**的计算/内存瓶颈差异，为优化提供精确指导 - **提出针对性加速技术**：**DP-Cache**减少扩散模型的冗余计算，**V-AEFusion**实现异步流水线并行，显著提升推理速度且保持性能 - **建立实用排行榜**：提供公开的排行榜网站，便于社区比较不同模型-硬件组合的CET性能

🏆 总体贡献

- 为低成本机载VLA部署提供了**模型-硬件协同特征化(model-hardware co-characterization)**的通用分析框架 - 证明了**适当尺寸的边缘设备**可在满足实时控制约束的同时实现比旗舰GPU更优的成本和能效 - 提出的**DP-Cache**和**V-AEFusion**方法实现了显著的推理加速（最高6倍），为机器人实时应用提供了可行的加速方案 - 公开的排行榜网站和开源资源促进了社区复现和进一步研究

跨XPU的视觉-语言-动作模型表征：机器人上部署的约束与加速
Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

📊 核心分析

跨XPU的视觉-语言-动作模型表征：机器人上部署的约束与加速 Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

📊 核心分析

跨XPU的视觉-语言-动作模型表征：机器人上部署的约束与加速
Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment