- **视觉-语言-动作(VLA)**模型在通用机器人控制方面前景广阔,但**机载部署(on-robot deployment)**受限于实时推理以及严格的成本和能耗预算
- 现有评估大多依赖桌面级GPU,掩盖了异构边缘加速器(如**XPU/NPU**)带来的权衡与机会
- 缺乏对低成本VLA部署的系统分析,特别是模型与硬件的协同特征化
- 构建了一个跨加速器排行榜,并在**CET(成本、能耗、时间)**指标下评估模型-硬件组合,发现合适的边缘设备在满足控制率约束的同时比旗舰GPU更具成本/能效
- 通过深度性能剖析,揭示了一致的**两阶段推理模式(two-phase inference pattern)**:计算密集的**视觉-语言模型(VLM)骨干(backbone)** 后接内存密集的**动作专家(Action Expert)**,导致阶段相关的低利用率和硬件低效
- 基于这些洞察,提出**DP-Cache**(减少扩散冗余)和**V-AEFusion**(实现异步流水线并行),在GPU上实现高达2.9倍加速,在边缘NPU上实现6倍加速,且成功率仅轻微下降
- **首次系统性跨XPU特征化**:全面评估多种边缘加速器(GPU/XPU/NPU)上的VLA模型,超越了仅基于桌面GPU的局限
- **发现两阶段推理模式**:识别出**VLM骨干**与**动作专家**的计算/内存瓶颈差异,为优化提供精确指导
- **提出针对性加速技术**:**DP-Cache**减少扩散模型的冗余计算,**V-AEFusion**实现异步流水线并行,显著提升推理速度且保持性能
- **建立实用排行榜**:提供公开的排行榜网站,便于社区比较不同模型-硬件组合的CET性能
- 为低成本机载VLA部署提供了**模型-硬件协同特征化(model-hardware co-characterization)**的通用分析框架
- 证明了**适当尺寸的边缘设备**可在满足实时控制约束的同时实现比旗舰GPU更优的成本和能效
- 提出的**DP-Cache**和**V-AEFusion**方法实现了显著的推理加速(最高6倍),为机器人实时应用提供了可行的加速方案
- 公开的排行榜网站和开源资源促进了社区复现和进一步研究