摩尔定律披上智能“铠甲”,NPU将是引玉之砖
近日记者从中星微"数字多媒体芯片技术"国家重点实验室获悉,经过五年多的攻坚克难和不懈努力,中国首款嵌入式神经网络处理器(NPU)芯片已于今年3月6日实现量产,这标志着我国在神经网络处理器领域的研究和开发上取得了重大突破,在基于"数据驱动并行计算"架构的人工智能深度学习领域达到国际先进水平。
"目前已成功在视频监控领域实现产业化,下一步将广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。"该国家重点实验室执行主任、中星微电子集团首席技术官张韵东向记者透露,"现在的出货量已经超过了10万颗。"
从时间上看,几个月前的3月9日,人工智能AlphaGo与李世石的第一场围棋大战才刚刚拉开帷幕。而在就3天前的3月6日,具有人工智能深度学习功能的中国首款嵌入式神经网络处理器(NPU)芯片"星光智能一号"已成功量产。AlphaGo要运行在一个庞大的服务器集群上,下一盘棋仅花费的电费就高达3000美元。而指甲盖大小的"星光智能一号"却实现了人工智能深度学习系统的低功率和小型化,并能够应用于嵌入式系统之中。
NPU颠覆冯诺依曼架构 为人工智能而生
在不久前的人机大战中,AlphaGo依靠模仿人脑生物机理的深度学习算法而击败李世石。深度学习,是源于对生物人脑机理的仿生学研究而形成的一种人工智能算法。作为深度学习神经网络的一种,卷积神经网络CNN (Convolutional Neural Network)算法,已成为当前人工智能机器视觉领域的研究热点。
CNN算法模型的特性可以概括为海量的输入数据、大规模的MAC运算、稀疏的权值矩阵、灵活的数据位宽和多样的网络拓扑等特性。对于传统冯诺依曼结构的CPU而言,其串行执行方式实在无法高效处理大量并行性运算,所以执行CNN算法的效率非常低下。
相当于CPU,GPU的高度并行化运算单元,相对更适合神经网络的大量并行运算方式。但是,GPU的设计初衷是为了进行3D图形处理,不仅功耗大、价格高,而且并不适合嵌入式环境。同理,DSP、FPGA等主流处理器也并不适合CNN。
为此,国内外主流企业和机构也都在针对CNN算法的处理器上下很了大功夫,研制自家的CNN处理器。如IBM公司的TrueNorth,高通公司的Zeroth,Google公司的TPU,KnuEdge公司的KnuPath和中国科学院的寒武纪等。
而中星微的NPU是针对CNN的算法模型特性专门设计的一款神经网络处理器。据张韵东介绍,NPU采用了"数据驱动并行计算"的架构,彻底颠覆了传统的冯诺依曼架构。这种数据流(Dataflow)类型的处理器,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据,使得人工智能在嵌入式机器视觉应用中可以大显身手。
据了解,每个NPU处理器具有4个内核(NPU Core),每个内核有两个数据流处理器(Dataflow Processor),每个数据流处理器具有8个长位宽或16个短位宽的SIMD(单指令多数据)运算单元。在一个时钟周期内可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。每个NPU核具有38GOps的长位宽处理能力或者76GOps的短位宽处理能力。NPU的处理性能可以组成多核阵列来提升,也可以通过多芯片级联的方式进一步扩展,以满足更复杂的CNN网络运算的性能需求。
"每个NPU核还具有256KB Level-2 Cache,以及整块数据搬移(Block Data Access),片内数据共享(Data-sharing Between Processor Units),提升数据流的吞吐效率。" 张韵东表示,"在软件方面,利用了稀疏数据优化(Optimization for Sparse Data)等特性提高计算效率。NPU可以支持Caffe、TensorFlow等多种神经网络框架,支持AlexNet、GoogleNet等各类神经网络。"
国家重点实验学术委员会主任杨晓东表示,星光智能一号芯片集成了NPU处理器内核以及国家标准的音视频编解码器(SVAC Codec),是全球首颗具备人工智能深度学习能力的嵌入式视频采集压缩编码系统级芯片。
记者还了解到,目前,中星微NPU芯片的代工生产在台积电进行,下一步有望转由我国大陆企业生产。
NPU只是"智能摩尔之路"的第一步
随着星光智能一号在视频监控领域的应用,监控系统可以通过高清视频的采集和编码,对人员、车辆进行基于深度学习的智能化目标识别,实现视频的结构化描述,关联视频和标签,并接入公安平台保存录像和索引信息。在接到报案信息后,刑侦人员可以通过搜索结构化描述标签,直接定位视频,获取现场图像,从而确认嫌疑人。
说得通俗些,以后我们可以直接用蓝白条纹T恤、黑裤子、男性这样的关键词对视频中的内容进行搜索。同理,如果在商品展示橱窗中设置NPU视频智能监控系统,我们将很容易得知
- 国产神经网络处理器出炉,视频监控冲向智能时代(05-21)
- 寒武纪研发国际首个深度学习NPU,光靠指令集就能吃饱?(03-28)
- 2016年就拿一亿元订单,寒武纪NPU已不满足“ARM”式授权(04-02)
- 在CPU里集成NPU,麒麟970的AI不只是功能还是生态(08-05)
- 芯片种类这么多,人工智能为啥还要专用芯片?(08-07)
- 麒麟970点评,新iPhone最强对手(08-15)