人工智能（AI）芯片产业生态梳理

时间：08-28 来源：ittbank 点击：

适合大规模并行计算。

在人工智能的通用计算GPU市场，NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品，2014年发布了新一代PASCAL GPU芯片架构，这是NVIDIA的第五代GPU架构，也是首个为深度学习而设计的GPU，它支持所有主流的深度学习计算框架。2016年上半年，NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器，采用NVLINK互联技术，软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA，能够快速设计深度神经网络(DNN)，拥有高达170TFLOPS的半精度浮点运算能力，相当于250台传统服务器，可以将深度学习的训练速度加快75倍，将CPU性能提升56倍。

Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0，TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片，第一代TPU仅能用于推理，而目前发布的TPU 2.0既可以用于训练神经网络，又可以用于推理。据介绍，TPU2.0包括了四个芯片，每秒可处理180万亿次浮点运算。Google还找到一种方法，使用新的计算机网络将64个TPU组合到一起，升级为所谓的TPU Pods，可提供大约11500万亿次浮点运算能力。Google表示，公司新的深度学习翻译模型如果在32块性能最好的GPU上训练，需要一整天的时间，而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片，而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务，以此发展TPU2的应用和生态，比如TPU2同时发布的TensorFlow Research Cloud (TFRC) 。

上述两家以外，传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场，如Intel推出的Xeon Phi+Nervana方案，AMD的下一代VEGA架构GPU芯片等，但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中，Graphcore 的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构，有超过1000个独立的处理器；支持All-to-All的核间通信，采用BulkSynchronous Parallel的同步计算模型；采用大量片上Memory，不直接连接DRAM。

总之，对于云端的Training(也包括Inference)系统来说，业界比较一致的观点是竞争的核心不是在单一芯片的层面，而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0，巨头的竞争也才刚刚开始。

（二）Inference On Cloud云端推理

相对于Training市场上NVIDIA的一家独大，Inference市场竞争则更为分散。若像业界所说的深度学习市场占比(Training占5%，Inference占95%)，Inference市场竞争必然会更为激烈。

在云端推理环节，虽然GPU仍有应用，但并不是最优选择，更多的是采用异构计算方案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。FPGA领域，四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera（被Intel收购）在云端加速领域优势明显。Altera在2015年12月被Intel收购，随后推出了Xeon+FPGA的云端方案，同时与Azure、腾讯云、阿里云等均有合作；Xilinx则与IBM、百度云、AWS、腾讯云合作较深入，另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看，云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。

ASIC领域，应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中，TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元，峰值可以达到92 TeraOps/second(TOPS)。有一个很大的片上存储器，一共28 MiB。它可以支持MLP，CNN和LSTM这些常见的神经网络，并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍，能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory，这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练，也用于推理，上一节已经做过介绍。

国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片，目前与科大讯飞、曙光等均有合作，但目前还没有详细的产品介绍。

（三）Inference On Device设备端推理

设备端推理的应用场景更为多样化，智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异，需要更为定制化、低功耗、低成本的嵌入式解决方案，这就给了创业公司更多机会，市场竞争生态也会更加多样化。

1）智能手机

华为9月初发布的麒麟970 AI芯片就搭载了神经网络处理器N

上一篇：STM32的CRC外设如何设置
下一篇：下一代AR和VR将由眼动追踪推动？

AI 人工智能 NVIDIA 自动驾驶相关文章：

栏目分类