- 边缘部署**大语言模型(Large Language Models, LLMs)** 受限于严格的计算、内存和功耗约束
- **通用矩阵乘法(General Matrix Multiplication, GEMM)** 占推理时间高达90%,高效加速至关重要
- 现有**空间扩展(spatial scaling)** 方法在资源有限的边缘SoC上因物理实现失败、带宽饱和和资源过度消耗而失效
- 提出**Tempus** 框架,采用**资源不变的时间GEMM(Resource-Invariant Temporal GEMM)** 方法
- 使用固定的**16个AIE-ML核心** 计算块,通过**迭代图执行(iterative graph execution)** 和**可编程逻辑(Programmable Logic, PL)** 中的算法数据分片与复制实现可扩展性
- 采用**高速级联流(high-speed cascade streaming)** 在**启动间隔(Initiation Interval, II)** 为1时实现低延迟部分和归约
- 应用**无死锁DATAFLOW协议(deadlock-free DATAFLOW protocol)** 最大化传输-计算重叠和**PLIO复用(PLIO reuse)**
- **首创资源不变的时间扩展范式**:不随矩阵大小扩展硬件资源,而是通过时间复用固定计算块实现可扩展性
- **零URAM/DSP利用率**:证明框架无需额外存储和DSP资源,实现22.0倍核心节俭和7.1倍功率节俭
- **卓越的系统效率**:通过**平台感知效用(Platform-Aware Utility, PAU)** 指标证明,相比空间SOTA (ARIES) 突出因子高达211.2倍
- 为边缘**LLM推理** 提供了一种可持续、可扩展的GEMM加速基础框架
- 在**607 GOPS** 性能和**10.677W** 总片上功耗下验证了有效性
- 实现**6.3倍I/O需求降低**,缓解了带宽瓶颈
- 建立的**PAU指标** 为系统级效率评估提供了新度量标准