CPU/GPU/FPGA都不给力，为啥说TPU才是未来？

时间：04-26 来源：新智元点击：

TPU上无法运行CPU上跑的Java或C++程序，也无法运行GPU上的CUDA程序。虽然尚未有公开信息，但它的编程方式非常可能是这样：TensorFlow把神经网络用一种中间格式表示出来，然后这种中间格式被编译器转换为TPU上独特的程序。这种中间格式被称为TensorFlow XLA，它也将是TensorFlow支持其它线性代数加速器的工具。

Google之所以选择ASIC而非FPGA，与其说是它的眼光好，不如说是它的魄力强。内行人都知道ASIC效能远超FPGA，但仍然有很多人不敢选择ASIC，为什么？自己做ASIC的风险太大：周期长，投入多，门槛高。一旦芯片做错，就和石头无异，落个血本无归。当年Apple决定自己做芯片时，并没有直接组建队伍，而是收购了P.A. Semi；这么多年后，成果赫赫，但依然不敢在Mac电脑中使用自研的CPU来淘汰Intel的芯片。而Google在短短几年内，组建了队伍，设计了合理的架构，做出了能work的芯片，并且敢于在自己的云上部署自己的产品，只能说一声"服！"

Google是一家伟大的公司，在它发布MapReduce、GFS和BigTable的论文之前，这些东西被普遍认为是不可能完成的。相信很多人在看到装备TPU的AlphaGo战胜柯洁之前，也会认为TPU是不可能完成的。历史证明，Google能做的事情，别人起码可以模仿个七八分。现在大家应该相信，在一个足够重要应用领域中，完全可以把优化和定制做到晶体管级别，而不是只做到某种现成的芯片架构的级别。这不但可行，而且必要，因为你不这么做，竞争对手也会这么做。

硬件的开源时代
摩尔定律的通俗表示是：每一美元所能买到的电脑性能，将每隔18-24个月翻一倍以上。过去三十年，拜摩尔定律所赐，我们见证了超过百万倍的性价比提升。未来我们所能看到的这一万倍，也应该按照"单位成本所能买到的电脑性能"来计算。

CPU和GPU这种通用架构，它们的历史包袱不仅仅导致了优化难以开展，还导致了：一、垄断导致的超额利润；二、过度复杂所带来的研发成本上升。于是，芯片的价格居高不下。

未来，当特定领域的定制芯片大行其道时，这些芯片的价格也将显著降低。原因在于：一、不再有垄断；二、没有历史包袱所带来的研发成本；三、开源所带来的研发成本降低。

硬件开源过去有过尝试，但无大成，原因是多种多样的。但从长远角度看，所有的基础设施，被广大厂商共享的，最终都会走向开源的路子。如果说Intel的CPU是大地（所有的优化不能做到比它更加底层），那么Linux、Python和PHP就是大地之上最底层的基础设施，它们是开源的；如果说GPU+CUDA是大地，那么各种深度学习的框架就是最底层的基础设施，它们也都是开源的。如果未来晶体管是大地，那么毫无疑问芯片的架构也会出现各种开源方案。

这一切才刚刚开始。这个月NVidia做了两件有趣的事：赞助了开源CPU架构RISCV在上海举办的workshop；宣布Xavier自动驾驶芯片中的针对线性代数的硬件加速模块DLA将开源。大厂支持开源，绝不是搞慈善，而是为了扼杀竞争对手，赢得业界事实标准的控制权。但开源的后果，必然是降低设计门槛，降低整个行业的研发成本。

我们的星辰大海：从应用到晶体管的全栈优化
对于从事计算机体系结构专业的同仁而言，这是最好的时代，半导体制造的先进工艺进展缓慢，但软件的各种应用需求还在不断涌现，软硬件接口逐渐模糊，成熟工艺的成本不断下降。为了优化特定应用，做深入到晶体管级的全栈优化成为一个现实的选项。只要正确地设计专用架构，使用成熟工艺也可以轻松超越GPU和CPU这种通用架构，哪怕它们采用最先进的制造工艺。

这是一个全新的世界，以往的利益格局和设计思想都将被打破，谁也无法预知将会发生怎样的兴衰变迁。但这就是我们的星辰大海，一起来探索和历险吧！

王逵，北京大学本硕博，自从大三读了Hennessy和Patterson的书之后，就掉进了计算机体系结构的坑，至今也没有爬出来。前后总共做了14年的CPU，从基础软件、芯片架构，到物理实现都攒了点经验。2016年加入比特大陆，从事人工智能加速芯片的设计和实现工作。

更多最新行业资讯，欢迎点击《今日大事要闻》！

上一篇：跌下神坛的高通和联发科，靠什么重拾自信
下一篇：ARM之后软银又瞄准了英伟达，后者股票大涨300%

摩尔定律 CPU FPGA GPU TPU 相关文章：

栏目分类