谷歌的TPU芯片效能到底能不能超越CPU与GPU，我们看图说话

时间：03-20 来源：eettaiwan 点击：

图3：ASIC芯片支援PCIe Gen 3 x16汇流排，并搭载DDR3存储器

开发人员掌握多元化讯息
该报告中提到，研究人员受到热门的ImageNet比赛吸引，已经变得过于投入卷积神经网路(CNN)。现实世界的应用采用更广泛的神经网路类型，报告并强调，多层感知(MLP)占Google AI开发工作的61%。"虽然大部份的架构师一直在加速CNN设计，但这部份只占5%的工作负载。"

"虽然CNN可能很常见于边缘装置，但卷积模型的数量还赶不上纳米中心的多层感知(MLP)和长短期存储器(LSTM)。我们希望架构师尽可能地加速MLP和LSTM设计，这种情况类似于当许多架构师专注于浮点运算效能时，大部份的主流工作负载仍由整数运算主导。"

Jouppi说："我们已经开始与一些大学合作，扩大提供免费模式。"但他并未透露内容细节。

这篇报告回顾了二十多年来神经网路的相关纳米，包括其竞争对手--微软(Microsoft)基于FPGA的Catapult计划，加速了网路作业。最初的25W Catapult在200MHz时脉上运作3,926个18位元MAC，并且以200MHz 时脉速度执行5MB存储器。Google表示，以Verilog语言设计的韧体比起使用TensorFlow软体来说效率更低。

图4：TPU卡可插入服务器的SATA插槽上

TPU计划于2013年开始，当时并以FPGA进行了试验。该报告中提到："我们舍弃FPGA，因为我们当时发现它和GPU相比，在效能上不具竞争力，而TPU比起GPU在相同速度或甚至更快的速度下，可以达到更低的功耗。"

尽管二十多年来，神经网路终于在最近从商用市场起飞了。

Jouppi说："我们所有人都被这蓬勃发展的景象吓到了，当初并未预期到会有如此大的影响力。一直到五、六年以前，我都还一直抱持怀疑态度…而今订单开始逐月增加中。"

相较于传统途径，深度神经网路(DNN)已经让语音辨识的错误率降低了30%，这是二十年来最大的进步。这让ImageNet影像辨识竞赛中的错误率从2011年的26%降至3.5%。

该报告结论还提到，"神经网路加速器存在的理由在于效能，而在其演进过程中，如何达到良好的直觉判断，目前还为时过早。"

上一篇：贸泽电子再获“十大增值分销商”称号并成为2017 SDF首席战略合作伙伴
下一篇：天舟一号成功飞天背后，这两款核心芯片都有啥故事？

CPU GPU google 机器学习 TPU 相关文章：

栏目分类