CPU/GPU/FPGA都不给力,为啥说TPU才是未来?
更多最新行业资讯,欢迎点击《今日大事要闻》!
TPU上无法运行CPU上跑的Java或C++程序,也无法运行GPU上的CUDA程序。虽然尚未有公开信息,但它的编程方式非常可能是这样:TensorFlow把神经网络用一种中间格式表示出来,然后这种中间格式被编译器转换为TPU上独特的程序。这种中间格式被称为TensorFlow XLA,它也将是TensorFlow支持其它线性代数加速器的工具。
Google之所以选择ASIC而非FPGA,与其说是它的眼光好,不如说是它的魄力强。内行人都知道ASIC效能远超FPGA,但仍然有很多人不敢选择ASIC,为什么?自己做ASIC的风险太大:周期长,投入多,门槛高。一旦芯片做错,就和石头无异,落个血本无归。当年Apple决定自己做芯片时,并没有直接组建队伍,而是收购了P.A. Semi;这么多年后,成果赫赫,但依然不敢在Mac电脑中使用自研的CPU来淘汰Intel的芯片。而Google在短短几年内,组建了队伍,设计了合理的架构,做出了能work的芯片,并且敢于在自己的云上部署自己的产品,只能说一声"服!"
Google是一家伟大的公司,在它发布MapReduce、GFS和BigTable的论文之前,这些东西被普遍认为是不可能完成的。相信很多人在看到装备TPU的AlphaGo战胜柯洁之前,也会认为TPU是不可能完成的。历史证明,Google能做的事情,别人起码可以模仿个七八分。现在大家应该相信,在一个足够重要应用领域中,完全可以把优化和定制做到晶体管级别,而不是只做到某种现成的芯片架构的级别。这不但可行,而且必要,因为你不这么做,竞争对手也会这么做。
硬件的开源时代
摩尔定律的通俗表示是:每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。过去三十年,拜摩尔定律所赐,我们见证了超过百万倍的性价比提升。未来我们所能看到的这一万倍,也应该按照"单位成本所能买到的电脑性能"来计算。
CPU和GPU这种通用架构,它们的历史包袱不仅仅导致了优化难以开展,还导致了:一、垄断导致的超额利润;二、过度复杂所带来的研发成本上升。于是,芯片的价格居高不下。
未来,当特定领域的定制芯片大行其道时,这些芯片的价格也将显著降低。原因在于:一、不再有垄断;二、没有历史包袱所带来的研发成本;三、开源所带来的研发成本降低。
硬件开源过去有过尝试,但无大成,原因是多种多样的。但从长远角度看,所有的基础设施,被广大厂商共享的,最终都会走向开源的路子。如果说Intel的CPU是大地(所有的优化不能做到比它更加底层),那么Linux、Python和PHP就是大地之上最底层的基础设施,它们是开源的;如果说GPU+CUDA是大地,那么各种深度学习的框架就是最底层的基础设施,它们也都是开源的。如果未来晶体管是大地,那么毫无疑问芯片的架构也会出现各种开源方案。
这一切才刚刚开始。这个月NVidia做了两件有趣的事:赞助了开源CPU架构RISCV在上海举办的workshop;宣布Xavier自动驾驶芯片中的针对线性代数的硬件加速模块DLA将开源。大厂支持开源,绝不是搞慈善,而是为了扼杀竞争对手,赢得业界事实标准的控制权。但开源的后果,必然是降低设计门槛,降低整个行业的研发成本。
我们的星辰大海:从应用到晶体管的全栈优化
对于从事计算机体系结构专业的同仁而言,这是最好的时代,半导体制造的先进工艺进展缓慢,但软件的各种应用需求还在不断涌现,软硬件接口逐渐模糊,成熟工艺的成本不断下降。为了优化特定应用,做深入到晶体管级的全栈优化成为一个现实的选项。只要正确地设计专用架构,使用成熟工艺也可以轻松超越GPU和CPU这种通用架构,哪怕它们采用最先进的制造工艺。
这是一个全新的世界,以往的利益格局和设计思想都将被打破,谁也无法预知将会发生怎样的兴衰变迁。但这就是我们的星辰大海,一起来探索和历险吧!
王逵,北京大学本硕博,自从大三读了Hennessy和Patterson的书之后,就掉进了计算机体系结构的坑,至今也没有爬出来。前后总共做了14年的CPU,从基础软件、芯片架构,到物理实现都攒了点经验。2016年加入比特大陆,从事人工智能加速芯片的设计和实现工作。
- 摩尔定律将死带来全球产业链重新洗牌机会(03-08)
- 晶体管进入3-D时代!(05-06)
- 美物理学家称摩尔定律将在10年内崩溃(05-04)
- 晶圆技术将摩尔定律延伸至20纳米(06-18)
- 奈米碳管:半导体持续摩尔定律步伐前进动力?(11-05)
- 摩尔定律快不行?MIT:莱特定律更准(03-12)