微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 中国CPU/GPU/DSP先天不足,靠啥在深度学习上赶超美国?

中国CPU/GPU/DSP先天不足,靠啥在深度学习上赶超美国?

时间:08-02 来源:智客 点击:

专用处理器,实际上是拿现有的、相对成熟的架构和技术成果去应对新生的人工智能,并没有发生革命性的技术突破。

  

其实,英特尔和英伟达是在使用现有的比较成熟的技术去满足深度学习的需求,虽然能借助现有的非常成熟的技术,以及英特尔、英伟达这样巨大体量、市场推广以及销售能力拔得头筹,但由于众核芯片和定制版GPU在本质上来说依旧是CPU和GPU,而并非专门针对深度学习的专业芯片,这就必然带来一些天生的不足。

  

打一个比方,用众核芯片和GPU跑深度学习,就类似于用轿车去拉货,受轿车自身特点的限制,货物运输能力与真正大马力、高负载的货车有一定差距。

  

同理,即便是因为技术相对更加成熟,英特尔和英伟达的芯片在集成度和制造工艺上具有优势,但由于CPU、GPU并非针对深度学习的专业芯片,相对于专业芯片,其运行效率必然受到一定影响。

  

专业角度看,Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器其实是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非真正的NPU。

  

这种方式能够适用于卷积神经网路(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络有可能就无能为力了。因此,用传统SIMD/DSP架构来适配神经网络,和真正的NPU依然有一定差距。

NPU:为深度学习而生的专业芯片

那么,什么是真正适合人工智能神经网络的芯片呢?我们得从人工智能和神经网络的特点讲起。

  

人工神经网络是一类模仿生物神经网络而构建的计算机算法的总称,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。

  

每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。

  

说得通俗点,这个过程其实就是"学习"的过程。在学习之后,人工神经网络就可通过学习到的知识来解决特定的问题。

  

由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。

  

这也是为什么,谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统的通用处理器(包括x86和ARM芯片等)用于深度学习的处理效率不高,这时就必须研发面向深度学习的专用处理器。

  

而中国研发的的寒武纪芯片这种NPU芯片,其指令集直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。

  

同时,因为NPU面向深度学习应用专门定制了功能单元和片上存储层次,同时剔除了通用处理器中为支持多样化应用而加入的复杂逻辑(如动态流水线等),因此与CPU、GPU相比,神经网络专用处理器会有百倍以上的性能或能耗比差距。

  

在NPU上中国领先美国

由于IBM很不幸地点歪了科技树,这直接导致中国在NPU上暂时领先于美国。

  

IBM的真北本身的研究是基于脉冲神经网络(Spiking Neural Network,SNN)的,而寒武纪则一直面向的是机器学习类的神经网络,如MLP(多层感知机)、CNN(卷积神经网络)和DNN(深度神经网络)。

  

两种网络根本的不同在于网络中传递的信息表示,前者(SNN)是通过脉冲的频率或者时间,后者则是突触连接的权值。目前在现有的测试集上,机器学习类的神经网络具有更高的精度(尤其是深度神经网络);前者则在精度上不能与之比拟。

  

精度是目前领域内很关心的非常重要的指标,比如近几年火热的ImageNet竞赛也是以识别精度为衡量标准的。正是因为曾经存在精度方面的差距,所以后来IBM的真北放弃了原来的路线图,也开始贴近机器学习类的神经网络,并采用了一些很曲折的方法来实现这一目标。

  

之前说过,真北本身是基于脉冲神经网络设计的,并且采用了逻辑时钟为1KHz这样的低频率来模拟毫秒级别生物上的脉冲,这也使得真北功耗很低(70mW),当然性能也比较有限。

  

而寒武纪则是机器学习类的神经网络设计,运行时钟频率在GHz左右,能够极其快速且高效的处理网络计算。这使得寒武纪相对于真北具有性能上的优势。

  

相比之下,寒武纪系列的内部计算符合机器学习类神经网络

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top