深度学习硬件这件事，GPU、CPU、FPGA到底谁最合适？

时间：01-16 来源：SIMTAC 点击：

在同一时间要对数以百万计的用于的语音输入进行识别并转化为文字输出。

在这个阶段，他们的作用必远不如训练阶段那么得心应手。而在未来，至少95%的深度学习都用于推断，尤其是在移动端。只有不到5%的是用于模型训练。因此，寻找低功耗，高性能，低延时的加速硬件成了当务之急。在这种情况下，人们把目光投向了"FPGA"与"ASIC"。

3.1、现状

FPGA全称是Field Programmable Gate Array：可编程逻辑门阵列。相对于之前两种芯片，它有一下几个的特点：硬件层面上，其内部集成大量的数字电路基本门电路和存储器，用户可以通过烧入配置文件来定义这些它们之间的连线，从而达到定制电路的目的；逻辑层面上，它不依赖于冯诺依曼结构，一个计算得到的结果可以被直接馈送到下一个无需在主存储器临时保存，因此不仅存储器带宽需求比使用GPU 或者CPU实现时低得多，而且还具有流水处理和响应迅速的特点。

ASIC（Application-Specific Integrated Circuit）是一种为专门目的而设计的集成电路。是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求。亮点在于运行速度在同等条件下比FPGA快。根据谷歌披露的数据，完全版的"AlphaGo"拥有1920颗CPU和280颗GPU，除此此外，还有它还安装一定数量的TPU（Tensor Processing Unit）。尽管谷歌一直对TPU语焉不详，业内普遍认为"AlphaGo"对围棋局势的预判所使用的置信网络（Value network）就是依赖TPU的发挥。

与GPU/CPU相比，FPGA与ASIC拥有良好的运行能效比，在实现相同性能的深度学习算法中，GPU所需的功耗远远大于FGPA与ASIC。浪潮与Intel 于去年底FPGA加速卡 F10A 最高性能的加速卡，单芯片峰值运算能力达到1.5TFlops，功耗才35W，每瓦特功率42GFlops，是GPU的数倍之高。其次，对于SIMD计算，GPU/CPU尽管具有很多逻辑核心，但是受限于冯诺依曼结构，无法发挥其并行计算的特点。而FPGA与ASIC不仅可以做到并行计算，而且还能实现流水处理。这大大减小了输入与输出的延时比。

下图是FPGA与ASIC在设计环节的对比。FPGA从设计的角度来说更加的灵活多变。只要用 Verilog或者其他描述语言定义好内部的逻辑结构即可实现硬件加速器功能。而ASIC则更像是一锤子卖卖：针对特定功能深度学习算法量身定做的。而且ASIC的设计和制造要经过很多的验证和物理设计，与FPGA的即插即用相比，需要更多的时间，而且从设计到制造，付出的代价也相应的高了很多。一般来说，基于FPGA的开发周期大约为6个月，而相同规格的ASIC则需要1年左右。

CPU并非最佳选择深度学习硬件谁更合适？

但是话又说回来，事物都有两面性。FPGA的的架构固然带来了应用上的灵活性和低成本，但是从执行的效率上来说，它又远远比不上ASIC，FPGA的通用性必然导致冗余。FPGA的运算电路基于查找表，比如说，FPGA内部有1000万个自定义逻辑部件，一个4输入的查找表单元需要96个晶体管来支持，而在ASIC上来实现估计只需要10个左右。这些冗余也必然体现在芯片的面积和功耗上。

与CPU与GPU之争的一边倒相比，由于功能与市场定位等原因，二者间的竞争还是相当缓和。

由于FPGA具有开发周期短，上市速度快，可配置性等特点，目前被大量的应用在大型企业的线上数据处理中心，和军工单位。

而ASIC由于一次性成本远远高于FPGA，但由于其量产成本低，因此应用上就偏向于消费电子，如移动终端等领域。

3.2、未来

上文所说，在未来的深度学习中，大约有95%的应用是数据的推断。而且FPGA或者ASIC相较于GPU/CPU无论在研发还是产出上的成本都明显降低。因此必然是兵家必争之地。无论从INTEL收购ALTRA/ Movidius，还是XILINX与IBM合作，抑或谷歌和高通默默开发自己的专属ASIC中都可见一斑。而且针对移动端的深度学习，FPGA或者ASIC更多的会以SOC形式出现，以至于更好的优化神经网络结构提升效率。

更多最新行业资讯，欢迎点击《今日大事要闻》！

上一篇：一代神“坑”处理器，骁龙615/616让高通有多难堪？
下一篇：程序员“趣事”一箩筐︱工程师，你还愿意为一本专业书籍付费吗？！

硬件 FPGA 深度学习 CPU GPU 相关文章：

栏目分类