一文读懂人工智能芯片所有猫腻，CPU/GPU/FPGA等都有啥差异？

时间：03-03 来源：行业报告研究院点击：

8.Nvidia的产业优势：完善的生态系统
与其它芯片公司相比，带有CUDA的重点软件生态系统是英伟达占领人工智能市场的关键促成因素。从2006年开始，英伟达发布了一个名叫CUDA的编程工具包，该工具包让开发者可以轻松编程屏幕上的每一个像素。在CUDA发布之前，给GPU编程对程序员来说是一件极其痛苦的事，因为这涉及到编写大量低层面的机器码以实现渲染每一个不同像素的目标，而这样的微型计算操作通常有上万个。CUDA在经过了英伟达的多年开发之后，成功将Java或C++这样的高级语言开放给了GPU编程，从而让GPU编程变得更加轻松简单，研究者也可以更快更便宜地开发他们的深度学习模型。

四、未来市场：半定制芯片FPGA
技术世界正在迈向一个全新的轨道，我们对于人工智能的想象已经不再局限于图片识别与声音处理，机器，将在更多领域完成新的探索。不同领域对计算的需求是差异的，这就要求深度学习的训练愈发专业化与区别化。芯片的发展趋势必将是在每一个细分领域都可以更加符合我们的专业需求，但是考虑到硬件产品一旦成型便不可再更改这个特点，我们不禁开始想，是不是可以生产一种芯片，让它硬件可编程。

也就是说，这一刻我们需要一个更适合图像处理的硬件系统，下一刻我们需要一个更适合科学计算的硬件系统，但是我们又不希望焊两块板子，我们希望一块板子便可以实现针对每一个应用领域的不同需求。这块板子便是半定制芯片FPGA，便是未来人工智能硬件市场的发展方向。

1.FPGA是什么？
场效可编程逻辑闸阵列FPGA运用硬件语言描述电路，根据所需要的逻辑功能对电路进行快速烧录。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变，这就好像一个电路试验板被放在了一个芯片里，所以FPGA可以完成所需要的逻辑功能。

FPGA和GPU内都有大量的计算单元，因此它们的计算能力都很强。在进行神经网络运算的时候，两者的速度会比CPU快很多。但是GPU由于架构固定，硬件原生支持的指令也就固定了，而FPGA则是可编程的。其可编程性是关键，因为它让软件与终端应用公司能够提供与其竞争对手不同的解决方案，并且能够灵活地针对自己所用的算法修改电路。

2.FPGA和GPU的性能差异
同样是擅长并行计算的FPGA和GPU，谁能够占领人工智能的高地，并不在于谁的应用更广泛，而是取决于谁的性能更好。在服务器端，有三个指标可供对比：峰值性能、平均性能与功耗能效比。当然，这三个指标是相互影响的，不过还是可以分开说。

峰值性能：GPU远远高于FPGA
GPU上面成千上万个核心同时跑在GHz的频率上是非常壮观的，最新的GPU峰值性能甚至可以达到10TFlops 以上。GPU的架构经过仔细设计，在电路实现上是基于标准单元库而在关键路径上可以用手工定制电路，甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程，因此可以让许多core同时跑在非常高的频率上。

相对而言，FPGA首先设计资源受到很大的限制，例如GPU如果想多加几个核心只要增加芯片面积就行，但FPGA一旦型号选定了逻辑资源上限就确定了。而且，FPGA里面的逻辑单元是基于SRAM查找表，其性能会比GPU里面的标准逻辑单元差很多。最后，FPGA的布线资源也受限制，因为有些线必须要绕很远，不像GPU这样走ASIC flow可以随意布线，这也会限制性能。

平均性能：GPU逊于FPGA
FPGA可以根据特定的应用去编程硬件，例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器，而GPU一旦设计完就不能改动了，所以不能根据应用去调整硬件资源。

目前机器学习大多使用SIMD架构，即只需一条指令可以平行处理大量数据，因此用GPU很适合。但是有些应用是MISD，即单一数据需要用许多条指令平行处理，这种情况下用FPGA做一个MISD的架构就会比GPU有优势。

所以，对于平均性能，看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势，那么FPGA在平均性能上会好于GPU。

功耗能效比：
功耗方面，虽然GPU的功耗远大于FPGA的功耗，但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能够接近一块GPU，那么FPGA方案的总功耗远小于GPU，散热问题可以大大减轻。反之，如果需要二十块FPGA才能实现一块GPU的平均性能，那么FPGA在功耗方面并没有优势。

能效比的比较也是类似，能效指的是完成程序执行消耗的能量，而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗，但是如果FPGA执行相同程序需要的时间比GPU长几十倍，那FPGA在能效比上就没有优势了；反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用，执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU，那么FPGA的能效比就会比GPU强。

上一页 1 2 3 4 5 6 7 下一页

上一篇：ARM能有牛叉闪闪的今天，全都因为“缺钱”二字？
下一篇：人工智能领域竞速，ARM/NVIDIA都有啥看家产品？

FPGA 人工智能 GPU 相关文章：

栏目分类