当前位置: X-MOL 学术Int. J. Parallel. Program › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
AMAIX In-Depth: A Generic Analytical Model for Deep Learning Accelerators
International Journal of Parallel Programming ( IF 1.5 ) Pub Date : 2022-03-24 , DOI: 10.1007/s10766-022-00728-3
Niko Zurstraßen 1 , Lukas Jünger 1 , Tim Kogel 1 , Holger Keding 1 , Rainer Leupers 1
Affiliation  

In recent years the growing popularity of Convolutional Neural Network(CNNs) has driven the development of specialized hardware, so called Deep Learning Accelerator (DLAs). The large market for DLAs and the huge amount of papers published on DLA design show that there is currently no one-size-fits-all solution. Depending on the given optimization goals such as power consumption or performance, there may be several optimal solutions for each scenario. A commonly used method for finding these solutions as early as possible in the design cycle, is the employment of analytical models which try to describe a design by simple yet insightful and sufficiently accurate formulas. The main contribution of this work is the generic Analytical Model for AI accelerators (AMAIX) for the estimation of CNN execution time on DLAs. It is based on the popular Roofline model. To show the validity of our approach, AMAIX was applied to the Nvidia Deep Learning Accelerator (NVDLA) as a case study using the AlexNet and LeNet CNNs as workloads. The resulting performance predictions were verified against an RTL emulation of the NVDLA using a Synopsys ZeBu Server-based hybrid prototype. By refining the model following a divide-and-conquer paradigm, AMAIX predicted the inference time of AlexNet and LeNet on the NVDLA with an accuracy 98%. Furthermore, this work shows how to use the obtained results for root-cause analysis and as a starting point for design space exploration.



中文翻译:

AMAIX 深度分析:深度学习加速器的通用分析模型

近年来,卷积神经网络 (CNN) 的日益普及推动了专用硬件的发展,即所谓的深度学习加速器 (DLA)。DLA 的巨大市场和发表在 DLA 设计上的大量论文表明,目前还没有一种万能的解决方案。根据给定的优化目标(例如功耗或性能),每个场景可能有多个最佳解决方案。在设计周期中尽早找到这些解决方案的常用方法是使用分析模型,该模型试图通过简单但有见地且足够准确的公式来描述设计。这项工作的主要贡献是用于估计 DLA 上的 CNN 执行时间的通用人工智能加速器分析模型 (AMAIX)。它基于流行的 Roofline 模型。为了证明我们方法的有效性,将 AMAIX 应用于 Nvidia 深度学习加速器 (NVDLA) 作为使用 AlexNet 和 LeNet CNN 作为工作负载的案例研究。使用基于 Synopsys ZeBu Server 的混合原型,针对 NVDLA 的 RTL 仿真验证了由此产生的性能预测。通过按照分而治之的范式改进模型,AMAIX 以 98% 的准确率预测了 NVDLA 上的 AlexNet 和 LeNet 的推理时间。此外,这项工作展示了如何将获得的结果用于根本原因分析,并作为设计空间探索的起点。使用基于 Synopsys ZeBu Server 的混合原型,针对 NVDLA 的 RTL 仿真验证了由此产生的性能预测。通过按照分而治之的范式改进模型,AMAIX 以 98% 的准确率预测了 NVDLA 上的 AlexNet 和 LeNet 的推理时间。此外,这项工作展示了如何将获得的结果用于根本原因分析,并作为设计空间探索的起点。使用基于 Synopsys ZeBu Server 的混合原型,针对 NVDLA 的 RTL 仿真验证了由此产生的性能预测。通过按照分而治之的范式改进模型,AMAIX 以 98% 的准确率预测了 NVDLA 上的 AlexNet 和 LeNet 的推理时间。此外,这项工作展示了如何将获得的结果用于根本原因分析,并作为设计空间探索的起点。

更新日期:2022-03-24
down
wechat
bug