微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > GPU/FPGA尽显鸡肋,谁才能拿下人工智能战略制高点

GPU/FPGA尽显鸡肋,谁才能拿下人工智能战略制高点

时间:11-05 来源:乐晴智库——安信证券 点击:

二, 下游需求量足够摊薄定制芯片投入的成本。
  

人工智能的市场空间将不仅仅局限于计算机、手机等传统计算平台,从无人驾驶汽车、无人机再到智能家居的各类家电,至少数十倍于智能手机体量的设备需要引入感知交互能力。
  

而出于对实时性的要求以及训练数据隐私等考虑,这些能力不可能完全依赖云端,必须要有本地的软硬件基础平台支撑。仅从这一角度考虑,人工智能定制芯片需求量就将数十倍于智能手机。
  

  

第三, 通过算法切入人工智能领域的公司希望通过芯片化、产品化来盈利。
  

目前通过算法切入人工智能领域的公司很多,包括采用语音识别、图像识别、ADAS(高级驾驶辅助系统) 等算法的公司。由于它们提供的都是高频次、基础性的功能服务,因此,仅仅通过算法来实 现商业盈利往往会遇到瓶颈。通过将各自人工智能核心算法芯片化、产品化,则不但提升了原有性能,同时也有望为商业盈利铺平道路。
  

目前包括 Mobileye、商汤科技、地平线机器人等著名人工智能公司都在进行核心算法芯片化的工作。
  

  

目前为人工智能专门定制芯片的大潮已经开始逐步显露,英伟达在今年宣布研发投入超过20亿美元用于深度学习专用芯片,而谷歌为深度学习定制的TPU 芯片甚至已经秘密运行一年,该芯片直接支撑了震惊全球的人机围棋大战。我国的寒武纪芯片也计划于今年开始产业化。人机围棋大战中的谷歌"阿尔法狗"(AlphaGo) 使用了约 170 个图形处理器(GPU)和 1200 个中央处理器(CPU),这些设备需要占用一个机房,还要配备大功率的空调,以及多名专家进行系统维护。AlphaGo 目前用的芯片数量,将来如果换成中国人研制的"寒武纪"架构的芯片,估计一个小盒子就全装下了。这意味着"阿尔法狗"将可以跑得更快些。
  

人工智能专用芯片的涌现表明从芯片层面开启的新一轮计算模式变革拉开帷幕,是人工智能产业正式走向成熟的拐点。
  

人工智能芯片发展路线图

设计芯片的目的是从加速深度学习算法到希望从底层结构模拟人脑来更好实现智能。
  

目前人工智能芯片涵盖了基于FPGA 的半定制、针对深度学习算法的全定制、类脑计算芯片三个阶段。
  

  

基于FPGA 的半定制人工智能芯片在芯片需求还未成规模、深度学习算法暂未稳定需要不断迭代改进的情况下,利用具备可重构特性的FPGA 芯片来实现半定制的人工智能芯片是最佳选择。这类芯片中的杰出代表是国内初创公司深鉴科技,该公司设计了"深度学习处理单元"(Deep Processing Unit,DPU)的芯片,希望以ASIC 级别的功耗来达到优于GPU 的性能,其第一批产品就是基于FPGA 平台。这种半定制芯片虽然依托于FPGA 平台,但是利用抽象出了指令集与编译器,可以快速开发、快速迭代,与专用的FPGA 加速器产品相比,也具有非常明显的优势。
  

  

针对深度学习算法的全定制人工智能芯片 

这类芯片是完全采用ASIC 设计方法全定制,性能、功耗和面积等指标面向深度学习算法都做到了最优。谷歌的TPU 芯片、我国中科院计算所的寒武纪深度学习处理器芯片就是这类芯片的典型代表。
  

以寒武纪处理器为例,目前寒武纪系列已包含三种原型处理器结构:
  

寒武纪1 号(英文名DianNao,面向神经网络的原型处理器结构)、寒武纪2 号(英文名 DaDianNao,面向大规模神经网络)、寒武纪3 号(英文名 PuDianNao,面向多种深度学习算法)。
  

其中寒武纪2 号在28nm 工艺下主频为606MHz,面积67.7 mm2,功耗约16W。其单芯片性能超过了主流GPU 的21 倍,而能耗仅为主流GPU 的1/330。64 芯片组成的高效能计算系统较主流GPU 的性能提升甚至可达450 倍,但总能耗仅为1/150。
  

  

第三阶段:类脑计算芯片这类芯片的设计目的不再局限于仅仅加速深度学习算法,而是在芯片基本结构甚至器件层面上希望能够开发出新的类脑计算机体系结构,比如会采用忆阻器和 ReRAM 等新器件来提高存储密度。
  

这类芯片的研究离成为市场上可以大规模广泛使用的成熟技术还有很大的差距,甚至有很大的风险,但是长期来看类脑芯片有可能会带来计算体系的革命。这类芯片的典型代表是IBM 的TrueNorth 芯片。
  

TrueNorth 处理器由54 亿个连结晶体管组成,构成了包含100 万个数字神经元阵列,这些神经元又可通过2.56 亿个电突触彼此通信。该芯片采用跟传统冯诺依曼不一样的结构,将内存、处理器单元和通信部件完全集成在一起,因此信息的处理完全在本地进行,而且由于本地处理的数据量并不大,传统计算机内存与CPU之间的瓶

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top