• 北大核心期刊(《中文核心期刊要目总览》2017版)
  • 中国科技核心期刊(中国科技论文统计源期刊)
  • JST 日本科学技术振兴机构数据库(日)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于混合踪迹的智能处理器模型和评估分析

郭宏晴 张盛兵 李楚曦 张萌

郭宏晴,张盛兵,李楚曦,等.基于混合踪迹的智能处理器模型和评估分析[J]. 微电子学与计算机,2023,40(6):90-99 doi: 10.19304/J.ISSN1000-7180.2022.0475
引用本文: 郭宏晴,张盛兵,李楚曦,等.基于混合踪迹的智能处理器模型和评估分析[J]. 微电子学与计算机,2023,40(6):90-99 doi: 10.19304/J.ISSN1000-7180.2022.0475
GUO H Q,ZHANG S B,LI C X,et al. Mixed-trace based simulation model and evaluation for AI processor[J]. Microelectronics & Computer,2023,40(6):90-99 doi: 10.19304/J.ISSN1000-7180.2022.0475
Citation: GUO H Q,ZHANG S B,LI C X,et al. Mixed-trace based simulation model and evaluation for AI processor[J]. Microelectronics & Computer,2023,40(6):90-99 doi: 10.19304/J.ISSN1000-7180.2022.0475

基于混合踪迹的智能处理器模型和评估分析

doi: 10.19304/J.ISSN1000-7180.2022.0475
基金项目: 航天771所创新基金(771CX2021005)
详细信息
    作者简介:

    郭宏晴:女,(1998-),硕士研究生.研究方向为嵌入式软件工程及神经网络加速器仿真模型

    张盛兵:男,(1968-),博士,教授.研究方向为嵌入式微处理器的体系结构研究与微处理器芯片设计

    李楚曦:女,(1993-),博士研究生.研究方向为软硬件协同设计及神经网络加速器设计

    通讯作者:

    男,(1978-),博士,副教授.研究方向为计算机架构、智能处理器架构及超大规模集成电路设计.E-mail:zhangm@nwpu.edu.cn

  • 中图分类号: TN492

Mixed-trace based simulation model and evaluation for AI processor

  • 摘要:

    近年来,紧耦合智能处理器在资源受限的边缘侧智能处理器应用中受到了广泛关注.但是针对主协处理器在流水线耦合关系做早期设计空间探索时,存在硬件资源关系共享性,数据通路结构复杂多样化以及片上主协计算特征异构性的特点,使得针对智能处理器的仿真评估建模面临着挑战.本文针对紧耦合智能处理器的结构特点,将硬件结构抽象成为软件仿真模型框架,通过对主协处理器基本硬件资源分析,分解指令控制的不同数据通路,设计智能处理器仿真模型.将主处理器与智能协处理器分别采用踪迹仿真和模型解析的方法,引入混合踪迹记录时间戳以统计部件访问信息,结合基于解析的性能评估算法,实现对智能处理器的性能评估.实验结果表明,基于混合踪迹的智能处理器模型和评估分析可以有效的解出智能计算的实际执行结果,并评估得到硬件的性能,包括延时,能耗和功耗等重要参数.

     

  • 图 1  基于混合踪迹的仿真模型架构

    Figure 1.  Mixed-trace based simulation model architecture

    图 2  流水线时间戳记录

    Figure 2.  Pipeline timestamp records

    图 3  解析评估器流程图

    Figure 3.  Flowchart for parsing the evaluator

    图 4  不同网络评估结果

    Figure 4.  Different network assessment results

    表  1  硬件结构映射参数

    Table  1.   Hardware architecture mapping parameters

    配置部件配置参数
    主处理器结构标量/超标量处理器流水线,包括寄存器配置、流水线结构等
    存储子系统,包括L1Cache、L2Cache配置、替换策略
    片上互联,包括取数队列表项、存数队列表项、运行指令数、一致性协议、DRAM类型等
    协处理器结构计算并行度
    执行块
    计算模式,计算尺寸,映射方案
    存储容量
    带宽
    下载: 导出CSV

    表  2  Benchmark的网络参数表

    Table  2.   Network parameter table for the benchmark

    网络名称参数量计算量
    yolov2-tiny11 M2,669 M
    AlexNet60 M724 M
    VGG16138 M15 M
    ResNet1825 M1,942 M
    ResNet5025 M4,140 M
    下载: 导出CSV

    表  3  网络配置参数

    Table  3.   Network configuration parameters

    网络参数参数含义
    层信息网络总层数、当前层类型、当前层索引
    输入信息输入尺寸、输入数量
    输出信息输出尺寸、输出数量
    卷积核信息卷积核尺寸、卷积核数量、滑步大小
    填充填充宽度
    归一化当前层是否需要BN
    输入数据位宽输入数据位宽
    池化当前层是否进行了池化操作
    下载: 导出CSV

    表  4  实验约束参数设置表

    Table  4.   Experiment constraint parameter settings

    配置参数参数含义实验使用参数
    实验一实验二
    Freq时钟频率100 Mhz100 Mhz
    Para并行度64128
    Bandwidth_total最大带宽64 Gb/s64 Gb/s
    DSP_total片上DSP总数量20202020
    BRAM_total片上存储使用容量26.5 Mb26.5 Mb
    下载: 导出CSV

    表  5  评估模型精度比较

    Table  5.   Evaluate model accuracy comparisons

    评估数据硬件数据误差
    延时333.99 ms362.8 ms7.94%
    能耗2.33 J2.225 J4.94%
    功耗6.99 W6.147 W13.71%
    功效比2.63 GOPS/W2.76 GOPS/W4.6%
    下载: 导出CSV

    表  6  ASIC的硬件结构评估结果

    Table  6.   The results of the hardware structure evaluation of the ASIC

    VGG16AlexNetResnet18Resnet50
    计算量GOP30.761.453.67.72
    吞吐量GOPS131.8176.04113.8292.51
    延时ms233.3719.0731.6383.45
    功耗W0.4110.3080.4190.223
    能耗J0.0960.0060.0130.019
    能效比GOPS/J1374.212945.48587.94971.1
    功效比GOPS/W240.9246.9271.11415.12
    下载: 导出CSV
  • [1] JURACY L R, MOREIRA M T, DE MORAISAMORY A, et al. A high-level modeling framework for estimating hardware metrics of CNN accelerators[J]. IEEE Transactions on Circuits and Systems I:Regular Papers,2021,68(11):4783-4795. DOI: 10.1109/TCSI.2021.3104644.
    [2] TANG T Q, LI S, NAI L F, et al. Neurometer: an integrated power, area, and timing modeling framework for machine learning acceleratorsindustry track paper[C]//IEEE International Symposium on High-Performance Computer Architecture. Seoul: IEEE, 2021: 853-841.
    [3] ZHANG L L, HAN S H, WEI J Y, et al. nn-Meter: towards accurate latency prediction of deep-learning model inference on diverse edge devices[C]//In Proceedings of the 19th Annual International Conference on Mobile Systems, Applications, and Services (MobiSys'21). Association for Computing Machinery, New York, NY, USA, 81-93.
    [4] GAUTSCHI M, SCHIAVONE P D, TRABER A, et al. Near-threshold RISC-V core with DSP extensions for scalable IoT endpoint devices[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems,2017,25(10):2700-2713. DOI: 10.1109/tvlsi.2017.2654506.
    [5] BINKERT N, BECKMANN B, BLACK G, et al. The gem5 simulator[J]. ACM SIGARCH computer architecture news,2011,39(2):1-7. DOI: 10.1145/2024716.2024718.
    [6] KWON H, CHATARASI P, SARKAR V, et al. MAESTRO: a data-centric approach to understand reuse, performance, and hardware cost of DNN mappings[J]. IEEE Micro,2020,40(3):20-29. DOI: 10.1109/mm.2020.2985963.
    [7] PARASHAR A, RAINA P, SHAO Y S, et al. Timeloop: a systematic approach to DNN accelerator evaluation[C]//2019 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS). Madison: IEEE, 2019: 304-315.
    [8] HEIDORN C, HANNIG F, TEICH J. Design space exploration for layer-parallel execution of convolutional neural networks on CGRAs[C]//Proceedings of the 23th International Workshop on Software and Compilers for Embedded Systems. St. Goar: ACM, 2020: 26-31.
    [9] ZHAO Y, LI C J, WANG Y, et al. DNN-chip predictor: an analytical performance predictor for DNN accelerators with various dataflows and hardware architectures[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020: 1593-1597.
    [10] WU Y N, EMER J S, SZE V. Accelergy: an architecture-level energy estimation methodology for accelerator designs[C]//2019 IEEE/ACM International Conference on Computer-Aided Design (ICCAD). Westminster: IEEE, 2019: 1-8.
    [11] LI C X, FAN X Y, GENG Y L, et al. ENAS oriented layer adaptive data scheduling strategy for resource limited hardware[J]. Neurocomputing,2020,381:29-39. DOI: 10.1016/j.neucom.2019.11.005.
    [12] LI C X, FAN X Y, ZHANG S B, et al. Hardware-aware NAS framework with layer adaptive scheduling on embedded system[C]//2021 26th Asia and South Pacific Design Automation Conference (ASP-DAC). Tokyo: IEEE, 2021: 798-805.
    [13] LI C X, FAN X Y, ZHANG S B, et al. DCNN search and accelerator co-design: improve the adaptability between NAS frameworks and embedded platforms[J]. Integration,2022,87:147-157. DOI: 10.1016/j.vlsi.2022.07.003.
    [14] LI S, AHN J H, STRONG R D, et al. McPAT: an integrated power, area, and timing modeling framework for multicore and manycore architectures[C]//Proceedings of the 42nd Annual IEEE/ACMInternational Symposium on Microarchitecture. New York: ACM, 2009: 469-480.
    [15] THOZIYOOR S, MURALIMANOHAR N, AHN J H, et al. CACTI 5.1[R]. Technical Report HPL-2008-20, HP Labs, 2008.
    [16] Xilinx power estimator[EB/OL]. [2022-5-30]. https://www.xilinx.com/products/technology/power/xpe.html.
    [17] ZHANG H F, WU X T, DU Y Y, et al. A heterogeneous RISC-V processor for efficient DNN application in smart sensing system[J]. Sensors,2021,21(19):6491. DOI: 10.3390/s21196491.
  • 加载中
图(4) / 表(6)
计量
  • 文章访问数:  15
  • HTML全文浏览量:  12
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-08-10
  • 修回日期:  2022-11-02

目录

    /

    返回文章
    返回