微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 麒麟970亮相,余承东这样介绍华为AI芯

麒麟970亮相,余承东这样介绍华为AI芯

时间:08-03 来源:机器之心 点击:

人工智能的最近一次浪潮起源于 2011 年前后深度学习(Deep Learning)引起的大发展。在其背后,快速发展的 GPU 功不可没。近年来,人们逐渐认识到计算芯片对于人工智能的重要性,围绕 AI 任务进行专有加速的芯片越来越多,但无论是 AlphaGo 背后的谷歌 TPU 还是加入了全新 Tensor Core 结构的英伟达 Tesla V100,这些芯片都是为服务器端进行设计的,在移动端对于机器学习任务加速的 SoC 还未出现。9 月 2 日,在德国柏林举行的 IFA 2017 展会上,华为正式发布了全球首款移动端 AI 芯片麒麟 970,一举填补了这一空白。

在发布会后,机器之心获取了有关麒麟 970 的第一手资料,并进行了深度解读。这款年度最受关注手机芯片的性能如何?让我们先睹为快。

新一代芯片麒麟 970

麒麟 9 系列一直是定位于旗舰机上的智能手机芯片。华为认为,此前的两代产品和国外主要竞争对手在性能上已经可以做到各有胜负,而在 CPU 能耗方面,麒麟芯片还更具有一定优势。作为最新一代产品,麒麟 970 继承了此前的领先技术。新一代芯片采用了业界最先进的工艺,内置 4 个用于处理重负载任务的 Cortex A73 核心,4 个 Cortex A53 核心,GPU 则为全新一代具有 12 个核心的 Mali-G72 MP12,所有参数都达到了旗舰产品的级别。

华为麒麟 970

与此同时,麒麟 970 不出所料将制程提升到了 10nm 级。制程始终是芯片提升最主要的手段,芯片能力的提升有两个互相影响的方面:性能和功耗。只有工艺的提升才能让这两个方面同时受益。麒麟 970 采用了台积电(TSMC)的 10nm 工艺,是目前业界最为先进的芯片制造工艺。

另外,在通信方面,麒麟 970 支持全球最高的通信规格 LTE Cat.18/Cat.13,实现了业界最高的 1.2Gbps 峰值下载速率。

此次发布的麒麟 970 同时升级了自行研制的 ISP,并且放入了两颗,其针对特定场景进行了性能和效果优化,可帮助使用者拍出更自然、更美的照片。

在硬件参数的升级之外,麒麟 970 最引人关注的新特性就是全新设计的 HiAI 移动计算架构了。

华为第一次在移动设备层面上把神经网络模型的硬件计算加速能力融合进芯片中去。这也是业内第一次在手机芯片中出现了专门用于进行人工智能方面计算的处理单元,它早于苹果传言中即将推出的 Neural Engine。华为表示,新的计算架构以及计算单元对于机器学习任务处理性能(相对于手机 CPU)提升了数十倍,最高可达到传统处理器 25 倍速度,50 倍能效。这种性能提升可以让此前很多无法在移动端使用的机器学习应用走向工程化和实用化。

众所周知,当前的 CPU 负责通用任务计算,面向指令密集和逻辑控制运算;GPU 则是数据密集型,主要面向向量任务的图形处理计算。对于人工智能领域的应用,目前人们面临的主要任务是对于矩阵乘法的运算,这种任务使用 CPU 和 GPU 来做效率并不高。对于一个矩阵乘法,后两种结构需要更多个指令周期来完成。针对这类任务,如果希望能够在最短的时钟周期内完成更多的神经网络模型算子的运算,就需要专门的硬件来参与其中。

麒麟 970 HiAI 移动计算架构

在麒麟 970 芯片的设计过程中,华为与寒武纪进行了深度合作,双方团队在 AI 计算处理方面进行了联合开发与优化。麒麟 970 创新设计的 HiAI 移动计算架构,通过更高效灵活的异构计算来最大化发挥 CPU/GPU/ISP/DSP/NPU 的性能,同时首次集成专门用于神经网络任务处理的 NPU(Neural Network Processing Unit)计算单元,其加速性能和能效比大幅优于 CPU 和 GPU。

为芯片组加入人工智能计算单元,这个过程看起来很简单,实际上非常复杂。谷歌与英伟达此前曾经分别推出过各自的人工智能芯片形式,这种面向服务器级的芯片面积很大(英伟达 Volta 的 Tensor Core 面积有 800 平方毫米)。而目前,像麒麟这样的旗舰手机 Soc 的面积只有 10×10 毫米。显然,在桌面端的轻而易举的事情是无法在手机上去做的--我们不能仅仅依靠晶体管的堆砌来提高性能。另一方面,面向人工智能任务运算的芯片单元也无法与服务器级芯片使用相同的能耗。

面对在小面积上实现大算力的挑战,华为通过改进工艺让同样面积(10×10 毫米)下晶体管数量提升到了 55 亿个,为 AI 计算单元让出了空间,同时在很小的面积下提升了芯片的计算性能。

此外,据悉,开发人员为了让 NPU 工程化、实用化、真正做到能商用进行了大量的研究、调试与优化,与合作伙伴、学术界展开了无数次沟通交流。最终,新的芯片在运算速度与能效方面性能优异,大大超过了目前市场上所见到的芯片。

在结构上,新的计

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top