作者:
Shubham Kumar, Vijay Pratap Sharma, Vaibhav Neema 等4人
分类:
cs.AR, cs.RO, eess.AS, eess.IV
📝 论文摘要
人工智能与边缘计算领域对低精度算术的快速采用,催生了对高能效、灵活浮点乘加运算单元(MAC)的迫切需求。本文提出了一种全流水线双精度浮点MAC处理引擎,支持FP8格式(E4M3、E5M2)和FP4格式(E2M1、E1M2),专门针对低功耗、高吞吐量的人工智能工作负载进行优化。该架构采用创新的比特分区技术,使单个4比特单元乘法器既能作为FP8运算的标准4×4乘法器,又可作为2比特操作数的两个并行2×2乘法器,在无需重复逻辑的情况下实现100%的硬件利用率。基于28纳米工艺实现的设计方案,其工作频率达到1.94 GHz,核心面积仅0.00396平方毫米,功耗为2.13毫瓦,与现有先进设计相比,面积减少最高达60.4%,功耗降低达86.6%。