英伟达GPU笑傲AI芯片江湖，三大类芯片都有搏一搏的机会？

时间：05-19 来源：StarryHeavensAbove 点击：

去年11月的时候第一次思考这个题目，今年3月做过一次更新。短短几个月，AI芯片领域变化不断，新闻不断，有必要再更新一下这个讨论。希望这次能把一个更为完整的分析呈现给大家。

我认为相关的市场主要可分成三大类。第一类是Data Center（Cloud）中用于training和inference的专用芯片或者FPGA（非GPU/CPU芯片）。第二类是需要较强智能的终端芯片（面向手机，安防监控，无人机，机器人，自动/辅助驾驶，VR/AR等），或许可以叫"泛手机终端芯片"。这类应用主要也是inference功能，不排除未来有training的需求；第三，是智能需求较低的终端芯片（穿戴，玩具，智能家居等等），以下叫"弱智能终端芯片"。当然，终端设备对智能的需求是相对的，可能覆盖很大范围。这里说的第三类实际上也可以看作是指受到成本，功耗等因素限制的inference需求。

还是先说结论：
Cloud training/inference（专用芯片/FPGA）：可以一搏；
泛手机终端芯片：机会很小；
弱智能终端芯片：充满变数；

先说说第二类吧。为什么说第二类对于初创公司基本没有机会？因为这是目前芯片产业竞争最激烈的战场。手机芯片大厂（高通，MTK，海思，展讯，苹果，三星）已经非常强大，而且还在不断把自己的技术能力推广到无人机，机器人，安防监控，自动驾驶，VR/AR等领域。很难想象会有初创公司能够再挤进来。

那么以IP形式进入是否有机会？个人的看法也是机会很小。第一，从技术能力来讲，这些公司都有实力（多年做通信基带和多媒体的经验）自己设计复杂的加速器或者专用处理器；第二，传统的IP厂商，比如CEVA，Synopsys，Cadence（tensilica）和Vericilicon也都盯着AI IP这个机会。最近这些公司也都频繁发布支持AI应用的DSP和硬件加速器产品（参考神经网络DSP核的一桌麻将终于凑齐了）。初创公司的IP如果有一定的技术特点和价格上的灵活性，有可能在大厂预热过程中得到试用的机会。但最终出现在量产芯片中的可能性非常小。第三，目前很多带AI性质的应用，要么是在cloud端实现，要么就直接拿现有的硬件资源来实现，比如ARM CPU/GPU或者已有的multimedia DSP来实现。手机芯片巨头都在定义AI相关的user case，是否有killer app需要在手机芯片中增加额外的硬件代价还有待观察。最后，ARM前段时间也推出了面向AI的DynimicIQ方案，其中定义了CPU和DL加速器的接口；后续还可能有更多动作，可能会对这个领域有很大的冲击。而Nvidia开源xavier DLA，会进一步拉低inference实现的门槛（从Nvidia开源深度学习加速器说起）。最近MTK最近也有所动作，可以看出AI在其未来战略中的重要性。

不过在这个Deep Learning IP领域，国内的一个Startup可能会给我们带来好消息，值得期待。

第三类弱智能计算应用，实际上可以也和第二类应用一起叫做边缘计算应用。这里加以区别，是因为这类应用对功耗、成本甚至尺寸的压力更大，主要包括一些物联网，可穿戴应用。其硬件平台的处理器能力非常有限（传统的MCU领域）。这类应用的总量很大，但差异化明显，需求五花八门，存在很多变数，技术上很难用一种架构来实现。相对泛手机芯片而言，这类芯片的资金投入门槛不高。随着Nvidia开源DLA，如果配合开源的RSIC-V CPU，门槛可能会进一步降低（当然，用开源的东西，技术门槛可能会更高）。所以，能不能成功的关键还得看芯片的spec定义是不是合理，能不能在市场出现的时候及时拿出芯片。相信未来可以看到不少初创公司在这个领域出现和死亡。目前看得比较清楚的是智能语音应用，从技术的可行性到市场的驱动都已经具备了芯片化的条件。

在这个领域，我还是比较看好由应用驱动芯片研发的公司。目前国内有很多Startup在图像处理，声音处理的算法和应用方面已经有了不错的积累。如果它能在某个细分领域获得领导地位，并根据应用定义和开发自己的芯片，巩固技术优势，则是一个比较好的状态。简而言之，就是顺势而为，水到渠成，而不是为了做芯片而做芯片。（当然，很多公司也是为了拿到投资而把设计芯片作为噱头的，这种情况我就不予置评了。）

在Cloud和Data Center的training和inference领域，最近Nvidia和Google的密集发布引来不少口水战。我在"AI芯片架构的争论真有意义吗？"这篇文章中已经介绍了目前的这个领域大家的竞争的重点是什么。

"对于Data center的training和inference系统来说，竞争已经不是在单一芯片的层面了，而是看能否扩展到exascale的问题（exaFLOPS，10的18次方）。而和TPU2的同时发布TensorFlow Research Cl

上一篇：Cortex-A75 让你的智能解决方案达到前所未有的性能水平
下一篇：伺服电机及伺服驱动系统远程控制，问题再多也有套路！

AI FPGA GPU 人工智能相关文章：

栏目分类