微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > NVIDIA/英特尔公布AI专用芯片计划,人工智能的舞台有多大?

NVIDIA/英特尔公布AI专用芯片计划,人工智能的舞台有多大?

时间:10-02 来源:赛迪顾问 点击:

一、从"深蓝"到"AlphaGO",人工智能走过二十年

距离1996年"深蓝"大战卡斯帕罗夫整整20年后,"AlphaGO"再次通过人机对战的形式为人工智能(Artificial Intelligence,AI)的发展历史添上了浓重一笔。站在今天,我们可以笑言那曾经令人瞠目结舌的"深蓝"实际上只是一个运行于超级计算机上的一个很棒的国际象棋程序,而为了支撑这个程序,IBM团队打造了一台重1.2吨、配备480颗国际象棋专用芯片的庞然大物。

  

不同于"深蓝"依靠超强运算能力所采取的遍历搜索策略,"AlphaGO"的设计中融入了近年来取得显著进展的深度学习算法。深度学习之所以被称为"深度",是相对前向误差反馈神经网络(Back Propagation,BP)、支持向量机(Support Vector Machine,SVM)等浅层学习算法而言。后者的局限性在于有限样本和计算单元情况下,对复杂函数的表示能力有限,且需要依靠人工经验抽取样本特征。深度学习算法则通过构建一种深层非线性网络结构来实现复杂函数逼近及自动特征提取,具有强大的从少数样本集中挖掘数据统计规律的能力。在基于深度学习方法的人脸识别领域,2014年,Facebook公司的DeepFace项目以及香港中文大学的DeepID项目在户外人脸识别(Labeled Faces in the Wild,LFW)数据库上的识别正确率分别达到97.45%和97.35%,几乎可以比肩人类97.5%的识别率。此外,在图像分类、自然语音识别等领域,深度学习也已证明了其无可比拟的优势,特别是在现存最复杂的完全信息博弈之一的围棋上的成功,说明该算法还大有潜力可挖。

  

关于AlphaGO还有个不为人知的小插曲。在对战李世石之前,AlphaGO曾于2016年1月以5:0的悬殊比分完胜欧洲围棋冠军樊麾二段。旁观的李世石在比赛结束后表示有信心捍卫人类在棋类运动上最后的荣誉。然而短短的一个月时间内,Google将AlphaGO的核心运算单元从CPU+GPU换成了专门的深度学习芯片(Tensor Processing Unit,TPU)。于是,我们看到了"石佛"尴尬的笑容和发抖的手指。

  

二、脱离硬件支持,深度学习只能是"屠龙之技"

事实上,AI界的泰斗,加拿大多伦多大学的Hiton教授早在2006年就提出了深度学习的概念,浅层学习算法更是早在上世纪80年代就为学术界所广泛认可。之所以最近几年该领域应用才逐渐升温,是因为AI的发展离不开两方面的支持,大数据和计算资源。

  

深度学习模型需要通过大量的数据训练才能获得理想的效果。以语音识别问题为例,仅在其声学建模部分,算法就面临着十亿到千亿级别的训练样本。在这种情况下,只有表达能力强的数学模型才能够充分发掘海量数据中蕴藏的丰富信息。相应地,海量数据的运算处理也必须有强大的计算资源作为支撑。举个毫不夸张的例子,今天的计算机一个中小型网络的训练需要一天时间,可能使用20年前的计算机需要近20年才能完成。因此,即便深度学习算法早20年诞生,没有硬件匹配也只能是屠龙之技。而即便是今天,AI相关硬件的发展仍远落后于软件算法。一方面,AI界的算法大牛实在太多,甩开摩尔定律数十年来笔耕不辍地升级着软件;另一方面,当前执行深度学习算法的主流方式是采用GPU芯片,为深度学习算法专门定制的芯片还远没有形成规模。虽然从架构上看,GPU相比CPU更有效率,但是离最优还相距甚远。而且GPU功耗惊人,很难委身于移动终端,更遑论物联网应用。

三、云端"高吞吐",本地"小快灵"

目前的AI应用主要分为用于服务器端和用于移动终端两大类。服务器端的负责AI算法的芯片一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持高精度浮点数运算,峰值性能至少要达到Tflops(每秒执行10^12次浮点数运算)级别,所以功耗非常大(>200W);而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算)。由于服务器端的AI芯片必须兼顾通用性,因此性能优化无法做到量体裁衣,只能做一些宏观的优化。

  

现有的主流服务器端的硬件加速器以图形处理器(Graphics Processing Unit,GPU)和现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)为主。GPU具有强大的浮点运算能力,因此除图像处理的本职工作外,被广泛应用于科学计算、密码破解、数值分析,海量数据处理等需要大规模并行计算的领域。与GPU相比,FPGA器件虽然在计算运行速度上与ASIC芯片有所差距(大约是GPU的一半,是同代ASIC的1/10),产品更新换代的速度也要慢于GPU芯片(GPU一般是一年到一年半更新换代,而FPGA是两到三年);但是功耗仅仅是GPU的1/10,并

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top