Tempus：面向Versal AI Edge的时间可扩展资源不变GEMM流式框架

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

作者: M. Grailoo, J. Núñez-Yáñez

arXiv: 2605.00536v1

分类: cs.DC, cs.AR, cs.LG, cs.PF, cs.RO

📝 论文摘要

大型语言模型（LLM）的缩放定律表明，模型质量随计算规模提升而提高，但边缘部署对计算、内存和功耗施加了严格限制。由于通用矩阵乘法（GEMM）占推理时间高达90%，高效的GEMM加速对于边缘AI至关重要。AMD Versal自适应SoC中的自适应智能引擎非常适合此任务，但现有最先进框架通过空间扩展最大化性能，将工作负载分布到数百个核心——由于物理实现失败、带宽饱和及资源过度消耗，这种方法在资源受限的边缘SoC上不可行。我们提出Tempus，一种面向AMD Versal AI Edge SoC的资源不变时间GEMM框架。Tempus不随矩阵规模扩展硬件资源，而是采用16个AIE-ML核心的固定计算模块，通过迭代图执行及可编程逻辑中的算法数据分块与复制实现可扩展性。高速级联流确保在启动间隔（II）为1时实现低延迟部分和规约，无死锁DATAFLOW协议最大化传输-计算重叠和PLIO复用。在GEMM工作负载上评估，Tempus在10.677 W总片上功耗下实现607 GOPS。通过平台感知效用（PAU）指标表征系统级效率，我们证明Tempus的显著因子比领先的空间最先进框架（ARIES）高211.2倍。此外，该框架保持URAM/DSP利用率为0.00%，实现22.0倍核心节约、7.1倍功耗节约和6.3倍I/O需求降低，为边缘LLM推理奠定了可持续、可扩展的基础。

📊 核心分析

🎯 研究动机

- 边缘部署**大语言模型(Large Language Models, LLMs)** 受限于严格的计算、内存和功耗约束 - **通用矩阵乘法(General Matrix Multiplication, GEMM)** 占推理时间高达90%，高效加速至关重要 - 现有**空间扩展(spatial scaling)** 方法在资源有限的边缘SoC上因物理实现失败、带宽饱和和资源过度消耗而失效

🔧 核心方法

- 提出**Tempus** 框架，采用**资源不变的时间GEMM(Resource-Invariant Temporal GEMM)** 方法 - 使用固定的**16个AIE-ML核心** 计算块，通过**迭代图执行(iterative graph execution)** 和**可编程逻辑(Programmable Logic, PL)** 中的算法数据分片与复制实现可扩展性 - 采用**高速级联流(high-speed cascade streaming)** 在**启动间隔(Initiation Interval, II)** 为1时实现低延迟部分和归约 - 应用**无死锁DATAFLOW协议(deadlock-free DATAFLOW protocol)** 最大化传输-计算重叠和**PLIO复用(PLIO reuse)**

💡 核心创新

- **首创资源不变的时间扩展范式**：不随矩阵大小扩展硬件资源，而是通过时间复用固定计算块实现可扩展性 - **零URAM/DSP利用率**：证明框架无需额外存储和DSP资源，实现22.0倍核心节俭和7.1倍功率节俭 - **卓越的系统效率**：通过**平台感知效用(Platform-Aware Utility, PAU)** 指标证明，相比空间SOTA (ARIES) 突出因子高达211.2倍

🏆 总体贡献

- 为边缘**LLM推理** 提供了一种可持续、可扩展的GEMM加速基础框架 - 在**607 GOPS** 性能和**10.677W** 总片上功耗下验证了有效性 - 实现**6.3倍I/O需求降低**，缓解了带宽瓶颈 - 建立的**PAU指标** 为系统级效率评估提供了新度量标准