盘点2016-2017 EDA及芯片领域的神经网络热点论文

腾讯高校合作 • 2023-01-03 • 云技术社区 • 273 阅读

编者按

“犀牛鸟论道”是由腾讯高校合作团队打造的原创类科技文章专栏，提倡深度、前瞻性、权威性与通俗晓畅的可读性。专栏聚焦科研前沿与趋势，评点技术与壁垒，探究创新之本源，旨在为学术界和产业界专家提供一片智慧与卓越见解的分享之地，让思考和成就得以沉淀。

来信来稿请联系：kunyuan@tencent.com

盘点2016-2017 EDA及芯片领域的神经网络热点论文

1. 引言

近年来随着神经网络的不断流行，在计算机体系结构与硬件领域出现了一大批针对各类神经网络进行芯片设计和优化的论文（如中科院计算所的DianNao系列论文等）。不仅如此，神经网络的热度已经扩展到了EDA领域。在这篇文章中，我们汇总了2016年EDA三大会议（DAC, ICCAD, DATE）上的神经网络论文，并对神经网络中的关键技术进行总结。在此基础上，我们结合2017年的FPGA和ISSCC会议上的代表性工作，给出了神经网络的一些新热点和研究趋势。

2. EDA领域的神经网络关注技术

神经网络是计算密集型和存储密集型的应用，并且在设计神经网络芯片时，需要消耗大量的能量，因此在2016年EDA三大会议上收录的论文大都从问题出发，分别从优化计算、降低存储空间、减少功耗面积和编程框架方面等对神经网络进行优化设计。

2.1 优化计算

在使用硬件加速器处理卷积神经网络中卷积层操作时通常存在两种类型的数据级并行：inter-kernel和intra-kernel。前者是对输入数据（input map）中不同层的部分数据进行并行处理，通常易于实现，在处理input map数较多的卷积层时性能较好，但数据重用率较低，当input map数很低时计算单元利用率也较低；后者是对输入数据的同一层进行并行处理，数据重用度较高，适用于处理input map数较少的卷基层，但由于不同网络卷积层参数变化较大导致数据映射和数据流设计较繁琐，设计难度较大。因此论文[1]设计了C-Brain——一种通过自身数据级并行调整来处理多种卷积神经网络的深度学习加速器，它可以根据卷积层参数的不同选择合适的方案并行处理卷积层操作。针对intra-kernel并行，设计了一套统一的基于卷积核尺寸/卷积操作步长的卷积核划分方案，使得不同参数的网络能以统一范式映射到加速器中，降低了intra-kernel方案实现难度；针对inter-kernel并行，通过改变处理顺序（原先是取一个输入数据和一个卷积核数据，做一次乘法；现在是取一个输入数据和不同卷积核的数据，做多次乘法）提高了数据复用度。Caffeine [2]首先指出神经网络的CONV Layer（卷积层）是计算密集型，而FCN Layer（全连接层）属于访存密集型。在FPGA上对CNN/DNN进行加速的时候，不能只对卷积层进行加速，否则的话全连接层的操作会成为系统新的瓶颈。然后分析并研究了适用于卷积层和全连接层的神经网络的统一表示方法（如图1、图2所示），以此来减少产生的中间数据量；最后，它设计了一个软硬件协同计算引擎，并对加速器的带宽进行了优化。

图1.输入数据从全连接层到卷积层的映射

图2.权值数据从全连接层到卷积层的映射

2.2 降低存储

论文[3]提出了两种技术，奇异值分解（SVD）和剪枝，不仅压缩模型而且也保持了模型形式便于在神经形态架构上的执行。它还提出了一种新的方法来把这两种技术结合起来，在保证性能一致下，在减少模型参数方面显著优于只使用其中一种方法的情况。实验结果表明，在AlexNet的最大层，该方法能实现31x的压缩率，而不损失精度。在手机等嵌入式设备内部部署机器学习类加速器时，由于功耗和面积等因素制约，加速器片上存储容量十分有限。在进行大规模CNN前馈计算时为避免频繁片外访存需要对网络权值进行压缩，而传统基于稀疏矩阵的压缩方法造成的随机访存以及在线的编、解码过程会使计算逻辑吞吐量受限。针对这一问题，论文[4]使用“k-means & base-delta”方法在线下对权值数据进行编码，大幅度降低了权值数据存储容量。加速器内存子系统提供了快速对编码数据解码的机制，从而在压缩权值的同时保证了计算逻辑的吞吐量；与此同时，存储子系统会对网络中层与层之间输出的中间结果进行编码，通过使用较短的index替代输出中大量的0，从而减小了存储中间结果的开销，相关逻辑在该值作为下一层输入时会再对其进行解码。除此之外，在将数据送入计算逻辑前，存储子系统可以检测和跳过操作数为0的计算，提高计算速度。实验（仿真）结果显示，相较于通用平台上存储容量较大的加速器，使用该存储子系统的加速器在做CNN运算时可以在片上存储容量减小8.7倍的情况下保证性能基本持平，能耗降低4倍，这使手机等小型嵌入式设备通过内部加速器高效计算大规模CNN成为可能。论文[5]提出一种近似乘法器，利用计算共享，探索神经网络应用的错误弹性，来得到能耗的改进。具体做法是通过训练，测试，再训练的方法，控制分类的准确度和alphabet集合的大小。采用ASM（Alphabet集乘法器）替代卷积乘法器，通过将权重进行二进制表示（8bit或12bit），划分为高位（MSB）和低位（LSB），选取alphabet结合中的某一输入数据的倍数进行位移，获得（MSB*输入）和（LSB*输入）的近似数据，最后将两部分数据相加即得到乘法结果。经过试验对比发现，alphabet集合中元素个数为1时，对准确度的影响约为0.5%，因此提出了在ANN初始几层1 Alphabet的神经元结构，在最后几层采用2或4 Alphabet的神经元结构，可以同时获得较好的准确度和较低的能耗。

2.3 减少功耗面积

由于CNN中的大量的中间数据导致RRAM接口和数字外部设备之间的ADCs（模拟-数字信号转换器）和DACs（数字-模拟信号转换器）消耗了大部分的面积和能耗。论文[6]针对基于RRAM的CNN提出一种高能效的结构——SEI，通过该结构减少ADCs，并且将中间数据转换成1 bit，以此来减少DACs。实验证明，本文提出的结构和方法可以节省80% 的面积和95%的能耗。论文[7]以 MIT（ Metal-Insulator-Transition）为基础的双终端设备作为压缩振荡神经元（ compact oscillation neuron），与复杂的 CMOS 积分发放神经元（ integrate-and-fire neuron）作对比，振荡神经元可以大幅减少面积，因此缓解了电阻存储器（ resistive memories）中外围电路的列间距匹配问题。最终通过电路层次 benchmark 的对比，在单个神经元节点层次，振荡神经元相比于 CMOS 神经元可以获得 12.5 倍以上的面积减少；在 128x128 的阵列层次，应用振荡神经元使得总面积减少 4%，延迟降低大于 30%，能耗节省 5 倍，泄露功耗减少 40 倍。证明了振荡神经元集成的优势。由于在 ANN 中突触的数量远远多于神经元的数量，突触的读写操作也占据很大一部分的功耗，所以论文[8]从数字电路的角度提出了通过降低电压来提高突触存储的能效。但传统的 6T SRAM 内存随电压降低表现出不稳定性，容易导致计算准确度降低。本文进而针对存储结构进行优化，采用稳定的8T SRAM 代替部分的传统6T SRAM（如图3所示），将对计算较重要的数据的高位存储在8T SRAM 中，在保证计算准确度的基础上进一步降低电压，达到提高能效的目的。在此基础上，为了在降低功耗的同时尽量减少面积的使用，根据不同网络层对计算结果的重要性，改变不同层的突触权值存储在8T SRAM 中的 MSB 数。

图3.突触内存配置.(a) 全是6T SRAM(b)重要性驱动的8T-6T混合SRAM (c)突触敏感性驱动的混合内存结构

2.4 编程框架

基于FPGA的硬件加速器设计过程复杂，上层应用开发者可能对底层神经网络结构缺乏了解，导致加速器设计难度较大。为简化设计过程，论文[9]提供了一套基于FPGA的神经网络加速器开发框架——DeepBurning（如图所示）。通过分析常见神经网络拓扑，作者总结归纳出了一系列网络中的常用组件（如内积单元、累加单元、池化单元等），通过RTL级描述后形成一套组件库。用户只需提供网络拓扑上层描述和硬件资源约束，框架中的神经网络集成器（NN-Gen）即可自动分析网络特征，结合硬件约束在组件库中选出合适组件组成硬件网络，以及对应的控制流、数据流和数据布局方案。框架的提出使得上层应用设计者可以像使用Caffe那样轻而易举的使用FPGA加速神经网络计算，大大提高了FPGA在该领域的适用性。论文[2]分析并研究了适用于卷积层和全连接层的神经网络的统一表示方法，并设计了一个软硬件协同计算引擎——Caffeine（如图所示），并将它和深度学习行业标准框架Caffe结合起来，相比于传统的CPU和GPU有着可观的性能和能效的提升。

图4.神经网络加速器开发框架——DeepBurning

图5.Caffe-Caffeine

2.5 神经网络中新的方法

论文[10]提出了一种高效的基于随机计算（stochastic computing，SC）的DNN实现（如图6所示）。作者观察到在DNN中直接采用随机计算有随机误差波动、范围受限、累积延迟等一些挑战后，采用删除接近于零的权重、权重缩放和累加器集成激励函数等方法解决上述问题。该方法利用随机计算渐进精度的特点，在固定的硬件上允许一个容易实现的早期决策终止，用现有的方法这是不容易实现的。实验结果表明，该方法在面积、延迟、功耗方面优于传统的二进制逻辑。将大矩阵映射到低尺寸的表现影响很大，因此论文[11]开发了一种高效能耗的硬件实现，可以实现基于随机映射的一类映射方法，叫做JL变换。同时，也展示了如何探索映射矩阵的内部随机性，来建立高效的机器学习应用定点算数实现。它确定了一种随机矩阵构建方法，来探索特殊的稀疏结构，从而最高效地使用硬件来在FPGA上优化转换。论文[12]提出了一种具有鲁棒性和高能耗效率的脉冲时序神经编码器，并在 CMOS 电路上进行了模拟实现。它的神经编码器采用脉冲时间间隔（ Inter-spike interval）编码方案，神经元采用 LIF（ Leak integrate and fire）模型。通过构建神经网络，输入层接收模拟信号，将模拟信号分解成不同相位差的副信号（sub-signal）并分配不同的权重，通过神经网络中间层对信号的处理，最终输出为脉冲序列编码。硬件方面，使用标准的 CMOS process 进行电路的设计和仿真，它的实现对脉冲神经网络在神经编码器方面的应用具有启发意义。论文[13]由首尔国立大学学实现了一个 FPGA 加速器 ICAN，其优势在于采用 3D 循环展开代替以往的二维展开，使得计算更符合卷积运算。为了简化控制逻辑和减少访存次数，它提出输入复用方法，牺牲少量的存储来提升性能，并探讨了如何选取参数达到最佳性能。相比于之前的工作，本次论文实现了 22%的性能提升，但由于采用 3D 阵列，具有更好的灵活性。

图6.(a)应用SC的DNN训练过程(b)在测试阶段应用建议的对策的SC神经元

2.6 神经网络的应用

一个严格和多变的车载环境在计算和通讯中可能包含多种错误，带有短暂的或持久的影响，因此需要使用容错的设计。而人工神经网络可以用来在计算中探测错误，修正错误，但不能同时满足硬件截止时间和准确性。论文[14]提出了一种人工神经网络的容许系统（如图7所示），它基于混合FPGA实现，在有限的硬件资源上，复用乘法和加法浮点操作的神经元结构。设计了两种错误探测模式：1.错误探测模式：使用轻量权重的网络进行预测。 2.容错模式：使用高精度（复杂）的网络进行预测。在探测模式下，预测值与测量值的差值超过某一阈值（即，错误）持续出现，通过部分重配置硬件，转换为容错模式调整错误，直到错误回复，返回探测模式。重构可以提供两种错误探测模式，复用硬件资源可以使用更加复杂准确的网络进行预测，相较软件实现，使用更短的预测时间。论文[15]针对移动设备和可穿戴设备能耗有限的特点，从加速器结构和算法循环优化设计角度出发，实现的一个高效灵活的 SIMD 加速器。为了提高灵活性，它使用了 VLIW 指令集，并结合 SIMD 计算方式来保证性能。为了提升性能，减少访存次数，它提出了 tile-strip 方法，利用计算局部性的特点来最大化数据的复用。实验结果表明，该加速器的平均吞吐率为30.2GOp/s，比 ARM 实现高 20x，比 GPU 实现高 1.2-2.6x，同时功率仅为 54mW，表现出了很好的能效性，计算效率为 559GOps/Watt。因此比较适用嵌入到下一代移动设备中。

图7.Zynq上的混合容错电子控制单元模型

2.7其他

除了上述论文之外，也有一些基于新型物理期间和优化的内容，值得我们的关注。例如，基于忆阻器的神经网络计算系统能够明显提高系统的能效，但是缺少模拟系统和实现早期设计空间搜索的仿真平台，因此论文[16]提出一种基于忆阻器的神经网络计算系统的仿真平台——MNSIM（如图8所示），该仿真平台采取的是分层架构（Computation Bank和Computation Unit），用户可以通过使用提供的接口，配合MNSIN提供的外围设备可以进行定制设计。MNSIM嵌入了系统仿真的面积、功耗和延迟等估算模型。相比于传统的仿真平台SPICE，MNSIM的错误率低于1%，在精确度可接受的前提下，MNSIM相比于SPICE有7000倍的加速比。尽管稀疏矩阵向量乘(SpMV)在许多应用程序中是一个重要的计算内核，但是内存有限的带宽和不规则的数据访问模式，使SpMV核的效率大大受限。不管是CPU还是GPU针对SpMV计算的专用软件库的吞吐率远远低于硬件平台提供的峰值浮点性能。

图8.MNSIM的整体结构

3.2017年的最新研究进展

在2017年已经召开的国际会议中，我们发现了一些神经网络方向的新进展，主要包括基于FPGA的神经网络加速器，以及深度学习处理器芯片两个方面：

3.1基于FPGA的硬件加速器与优化

目前的神经网络如DNN、RNN等都存在快速进化的特点，例如利用稀疏性、简单的数据类型和较短的数据位宽使得算法的效率得到了重大飞跃。然而这些创新在自定义数据类型上引入了不规则的并行性，导致GPU很难处理，但是却适合FPGA可定制的特点。我们调研了在FPGA2017上有关神经网络加速的论文：

在FPGA2017上获得最佳论文的ESE[17]，提出基于FPGA的稀疏LSTM高效语音识别引擎，ESE在软硬件同时进行优化，不仅在算法上压缩到更小，同时硬件上也支持压缩后的深度学习算法。软件方面，ESE提出了Load-Balance-Aware-Pruning，该算法考虑到最终多核并行加速的时候不同核心之间的负载均衡问题。与此同时，Nurvitadhi等在工作[18]中评估了FPGA和GPU在下一代深度神经网络加速方面的性能、能效差距，GPU强大的计算资源使其在规则的神经网络下拥有天然的并行度，但是剪枝和压缩等方法使得神经网络变得不规则，这样不利于GPU进行神经网络并行计算，而FPGA则可以通过定制的方式来解决上述问题，随着下一代FPGA资源增加，FPGA将成为下一代DNN加速平台的选择。

从优化的调度来看，对卷积算法的优化中，采用循环展开、平铺和交换，或者在加速器结构和数据流已经固定后调整设计变量，Yufei Ma [19] 等人提出通过量化分析和优化基于多设计变量的方法来优化卷积循环，通过搜索设计变量的配置，提出一个CNN硬件加速器的明确数据流用来最小化内存访问和数据移动，与此同时，该数据流也用来最大化资源利用率以取得高性能。与之类似的，[20] Jialiang Zhang等人提出了一个性能分析模型，用来深度分析CNN分类器内核的资源需求以及现代FPGA可提供的资源，指出关键性能瓶颈是片内内存带宽，因此提出了一种可以有效地定位这类带宽限制的新型核设计，其可以提供计算、片内存储访问以及片外存储访问间的最优平衡。

3.2神经网络的处理器芯片设计

除了采用FPGA作为原型系统之外，设计针对特定应用的神经网络芯片也是一个重要方向。从2017年初的ISSCC 2017会议论文来看，有以下一些代表成果：

一种基于数据流可重配置的深度卷积神经网络（DCNN）硬件加速框架 [21]。本设计采取典型的CNN专用加速引擎+DSP通用处理的设计思路，也即将神经网络计算过程中占绝大部分操作的卷积运算操作部署在专用加速引擎，其他操作如ReLU、Pooling、FC等在DSP模块上进行计算，挖掘专用引擎和DSP阵列之间的计算的并发度。DNPU[22]提出了一款高能效可重构的通用深度神经网络的CNN-RNN处理器。针对卷积层的计算瓶颈和全连接和编解码+LSTM层的存储瓶颈，实现了两套完全独立的架构，卷积加速模块CP和RNN-LSTM模块FRP，使用分布式Memory保证PE阵列、计算核的数据需求，通过Aggregation Core将数据进行集中处理并和RNN计算模块进行数据交互。文献[23]设计了一款专用于稀疏DNN的加速器芯片，整个加速器系统的采取的优化手段有两点：（1）采用sign-magnitude number format保存参数和计算，减少了补码表示带来的bit翻转率。（2）对稀疏DNN进行稀疏计算，也即数据0不参与计算。[24]提出一种针对ASR（语音自动识别）和VAD（语音激活检测）的电路设计来提升精确度、可编程性和可扩展性。采用有限的网络带宽、量化稀疏权值矩阵来为DNN定制低功耗的ASR。ENVISION[25]提出了一款基于DVAFS的能效可调节的CNN处理器。针对嵌入式设备的计算量和能耗空间的要求，ENVISION将DVAS（Dynamic-Voltage-Accuracy- Scalable）扩展成DVAFS（Dynamic-Voltage-Accuracy-Frequency-Scalable），对乘法器进行优化设计，增加实现频率的调整。DVAFS实现了对运行时所有可调整参数的降低：activity α，frequency f和voltage V。通过采用高位乘高位、低位乘低位，可以在16b阵列上同时计算两个8b乘法，对于后续的不同精度计算吞吐提升和资源利用提高起到极大的作用。[26]提出一款面向Always-on和IoT（Internet-of-Things）应用场景，采用CIS和CNN实现的超低功耗的人脸识别SoC。根据不同应用场景的不同能效需求：0.1W~1W，1W~5W等，需要不同的架构。[27]提出了一款面向IoT的DNN加速的专用芯片，主要特点是有L1~L4四级不同速度、能耗的层次化存储。通过对全连接矩阵乘向量的计算流程进行优化，最终可以在0.65V 3.9MHz下获得374GOPS/W的能效表现及288uW的能耗指标。IoT的结点将具有移动感知能力，同时可以具有运行简单的语音/图像检测和离线学习的能力，可以完成部分DSP的计算工作。

4.结论与发展趋势

从以上研究内容来看，针对神经网络的优化主要集中在提高数据的局部性、挖掘数据的并行性、降低权值数据的存储空间以及降低芯片的功耗和面积。从所用到的技术上来说，主要有剪枝、权值压缩、数据共享、数据并行、近似计算等。同时我们也看到很多研究人员将其他领域的方法迁移到神经网络优化中，以及将新材料应用于神经网络设计中，随着研究的深入，相信我们会在2017年看到越来越多这样的研究工作，设计出新型的芯片和软硬件系统。另外，不可忽视的是，神经网络具有广阔的应用领域，在2016 DATE上，我们已经看到了将神经网络应用于汽车系统的错误检测的成功以及嵌入到移动设备的可能，以后我们将会看到神经网络在其他领域的更多成功应用。

总的来看，计算机体系结构与EDA这两个领域的研究已经接近融合，同时面向新型应用的研究也成为近些年的研究热点。在2016年中，我们很高兴的看到，不仅仅在软件应用和算法层面，神经网络的拓扑、编程获得了较大程度的发展，在硬件体系结构领域也得到了长足的进步，对构建新型计算机系统，推动人工智能芯片和系统的产业化提供了非常有力的基础。

参考文献：

[1]. Song, L., et al. C-Brain: A deep learning accelerator that tames the diversity of CNNs through adaptive data-level parallelization. in Design Automation Conference (DAC), 2016 53nd ACM/EDAC/IEEE. 2016. IEEE.

[2]. Zhang, C., et al. Caffeine: towards uniformed representation and acceleration for deep convolutional neural networks. in Proceedings of the 35th International Conference on Computer-Aided Design. 2016. ACM.

[3]. Chung, J. and T. Shin. Simplifying deep neural networks for neuromorphic architectures. in Design Automation Conference (DAC), 2016 53nd ACM/EDAC/IEEE. 2016. IEEE.

[4]. Wang, Y., H. Li, and X. Li. Re-architecting the on-chip memory sub-system of machine-learning accelerator for embedded devices. in Proceedings of the 35th International Conference on Computer-Aided Design. 2016. ACM.

[5]. Sarwar, S.S., et al. Multiplier-less artificial neurons exploiting error resiliency for energy-efficient neural computing. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[6]. Xia, L., et al. Switched by input: Power efficient structure for RRAM-based convolutional neural network. in Proceedings of the 53rd Annual Design Automation Conference. 2016. ACM.

[7]. Chen, P.-Y., et al. Compact oscillation neuron exploiting metal-insulator-transition for neuromorphic computing. in Proceedings of the 35th International Conference on Computer-Aided Design. 2016. ACM.

[8]. Srinivasan, G., et al. Significance driven hybrid 8T-6T SRAM for energy-efficient synaptic storage in artificial neural networks. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[9]. Wang, Y., et al. Deepburning: Automatic generation of fpga-based learning accelerators for the neural network family. in Design Automation Conference (DAC), 2016 53nd ACM/EDAC/IEEE. 2016. IEEE.

[10]. Kim, K., et al. Dynamic energy-accuracy trade-off using stochastic computing in deep neural networks. in Proceedings of the 53rd Annual Design Automation Conference. 2016. ACM.

[11]. Wang, Y., C. Caramanis, and M. Orshansky. Exploiting randomness in sketching for efficient hardware implementation of machine learning applications. in Proceedings of the 35th International Conference on Computer-Aided Design. 2016. ACM.

[12]. Zhao, C., J. Li, and Y. Yi. Making neural encoding robust and energy efficient: an advanced analog temporal encoder for brain-inspired computing systems. in Proceedings of the 35th International Conference on Computer-Aided Design. 2016. ACM.

[13]. Rahman, A., J. Lee, and K. Choi. Efficient FPGA acceleration of Convolutional Neural Networks using logical-3D compute array. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[14]. Shreejith, S., B. Anshuman, and S.A. Fahmy. Accelerated artificial neural networks on FPGA for fault detection in automotive systems. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[15]. Peemen, M., et al. The neuro vector engine: Flexibility to improve convolutional net efficiency for wearable vision. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[16]. Xia, L., et al. MNSIM: Simulation platform for memristor-based neuromorphic computing system. in Design, Automation & Test in Europe Conference & Exhibition (DATE), 2016. 2016. IEEE.

[17]. Han, S., et al. ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA. in Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. 2017. ACM.

[18]. Nurvitadhi, E., et al. Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks? in Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. 2017. ACM.

[19]. Ma, Y., et al. Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep Convolutional Neural Networks. in Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. 2017. ACM.

[20]. Zhang, J. and J. Li. Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network. in Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. 2017. ACM.

[21]. Desoli, G., et al. 14.1 A 2.9 TOPS/W deep convolutional neural network SoC in FD-SOI 28nm for intelligent embedded systems. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[22]. Shin, D., et al. 14.2 DNPU: An 8.1 TOPS/W reconfigurable CNN-RNN processor for general-purpose deep neural networks. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[23]. Whatmough, P.N., et al. 14.3 A 28nm SoC with a 1.2 GHz 568nJ/prediction sparse deep-neural-network engine with> 0.1 timing error rate tolerance for IoT applications. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[24]. Price, M., J. Glass, and A.P. Chandrakasan. 14.4 A scalable speech recognizer with deep-neural-network acoustic models and voice-activated power gating. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[25]. Moons, B., et al. 14.5 Envision: A 0.26-to-10TOPS/W subword-parallel dynamic-voltage-accuracy-frequency-scalable Convolutional Neural Network processor in 28nm FDSOI. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[26]. Bong, K., et al. 14.6 A 0.62 mW ultra-low-power convolutional-neural-network face-recognition processor and a CIS integrated with always-on haar-like face detector. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

[27]. Bang, S., et al. 14.7 A 288µW programmable deep-learning processor with 270KB on-chip weight storage using non-uniform memory hierarchy for mobile intelligence. in Solid-State Circuits Conference (ISSCC), 2017 IEEE International. 2017. IEEE.

作者简介：

王超，博士，中国科学技术大学计算机学院副教授，中国科学院青年创新促进会会员，CCF高级会员。分别于2006、2011年获得中国科学技术大学计算机科学与技术学士、博士学位，曾于2015-2016年在美国加州大学圣塔芭芭拉分校进行学术访问，2015年获CCF-腾讯犀牛鸟科研基金优秀奖。曾主持或参与了国家自然科学基金、核高基、863计划等多项研究课题，目前担任Microprocessors and Microsystems等四个SCI期刊的编委。在包括7种ACM/IEEE Transactions在内的著名期刊和会议上发表论文70余篇，授权发明专利8项。

主页：http://staff.ustc.edu.cn/~cswang

本站文章资源均来源自网络，除非特别声明，否则均不代表站方观点，并仅供查阅，不作为任何参考依据！
如有侵权请及时跟我们联系，本站将及时删除！
如遇版权问题，请查看本站版权声明

THE END