神威太湖之光只能靠跑分“作秀”？其实有大作用

时间：10-29 来源：科普中国点击：

11月14日，新一期全球超级计算机500强（TOP500）榜单在美国盐湖城公布，中国神威太湖之光蝉联冠军，中国天河二号屈居次席。除神威太湖之光和天河二号外，中国也在TOP500上榜总数上与美国持平。

正如天河2号获得6连冠后却因为使用了Intel公司的至强Phi计算卡而被一些别有用心之徒百般诋毁，在神威太湖之光实现了包括处理器在内的所有核心部件全部国产化后，网络上又传来了不和谐的音符--有媒体认为，神威太湖之光的"可用性能与理论性能相去甚远"，并以"HPL效率是74.16%"，"HPCG测试只有0.371PFLOPS，效率则只有0.3%，这比天河2号的1.1%还要低"来质疑神威太湖之光。

言下之意，就是神威太湖之光的可用性能与理论性能相去甚远，只能用来跑分,根本就用不来。那么什么是Linpack和HPCG，神威太湖之光真的只能用来跑分么？

什么是Linpack？

上面媒体的一段话引用了几个测试的结果，并以74.16%、0.3%、1.1%等实际数据来说明中国超算可用性能与理论性能相去甚远，非常具有迷惑性。笔者简单的就Linpack测试和HPCG测试做个简要说明。

Linpack指的是矩阵求解，在科学计算中把实际问题抽象成方程组，然后离散成矩阵计算矩阵倍，代表的是传统的以矩阵为基础的数值计算方法，常用于理科和工科的数值求解和数值模拟。那么为何超算大多以Linpack测试成绩论高低呢？原因就在于很多科学计算模型都包含了矩阵求解，比如解微分方程，因此在超算任务中具有不可取代性--像辐射流体力学就是求解微分方程；而核爆炸模拟其实就是辐射流体力学+蒙特卡洛预测；雷达截面的矩量法计算也有赖于解微分方程；业内专家还告诉笔者"现在的深度学习算法的核心算法与Linpack的是一个".......因此，linpack测试并非是一些跑分软件那样：不服跑个分，而是真正具有实战价值的测试。

Linpack效率指的是实际计算时的次数除以理论计算，举例来说：

神威太湖之光的理论性能为125.4 PFlops，Linpack浮点性能93PFlops，Linpack效率为74.16%。

天河2号的理论性能54.9Pflops，Linpack双精浮点性能33.8PFlops,Linpack效率61.5%

泰坦的理论性能27 Pflops，Linpack双精浮点性能17.6 PFlops，Linpack效率为65.19%。

红杉的理论性能为20.1Pflops，Linpack测试双精浮点性能为16.3P，Linpack效率高达81%。

这里要说明一点，就是超算的规模越大，Linpack测试效率的提高就越难--规模大到如一定程度，维持一段时间的稳定运行是非常难的，何况是太湖神威之光93PFlops的高性能。而神威太湖之光在Linpack测试性能是美国超算泰坦5倍以上的情况下，Linpack测试效率大幅领先于泰坦，这就非常可贵了！至于红杉的Linpack测试效率为何会高达81%，笔者会在下文做讲解。

另外还要说明的的一点，天河2号Linpack效率低于美国泰坦的原因--一方面是因为天河2号的规模更大，影响了效率；另一方面是因为天河2号采用的是Intel的至强PHI计算卡，而该计算卡就以理论性能强大，但稳定性能相对偏低著称--同样使用E5和至强PHI计算卡的美国超算Stampede，不仅运算能力仅为天河2号的五分之一左右（未升级前，升级后为三分之一），整机效率比天河2号更低，只有60.7%。

总而言之，以神威太湖之光的规模，取得Linpack效率达到74.16%已经非常厉害了，在采用异构计算的超算中属于顶尖水平，大家千万不要被一些无良媒体误导了。

异构超算在Linpack效率上天然低于同构超算

对于笔者认为的神威太湖之光Linpack效率达到74.16%属于顶尖水平的结论，也许某些人会提出异议，比如会列举出TOP500排名第四的美国超算红杉，红杉的理论性能为20.1Pflops，Linpack测试双精浮点性能为16.3P，Linpack效率高达81%。

那么为何红杉的Linpack效率如此之高呢？原因就在于和神威太湖之光、天河2号、泰坦等采用异构计算的超算不同，红杉采用的依旧是传统的同构计算技术。

超算可以分为两种架构。采用同构计算架构的超算只需要单纯使用一种处理器，在同一类型的处理器上执行计算任务。举例来说，中国超算神威蓝光采用了申威1600，美国的米拉和红杉采用了PowerPC-A2处理器，这些超算都没有采用GPU或其它类型的众核芯片等加速器。因此，红杉、米拉、神威蓝光都是采用同构计算架构超算的代表。

异构计算使用CPU、GPGPU、GPDSP、ASIC、FPGA和其它类型的众核处理器来处理不同类型的计算任务。采用异构计算架构的超算会使用至少2种类型的处理器，其中异构计算架构中通用CPU负责逻辑复杂的调度和串行任务，加速器负责并行度高的任务，实现计算加速。具体来说，采用异构计算架

上一篇：骁龙835占尽10nm时间优势，比Helio X30还晚的麒麟970为啥一点不慌？
下一篇：追赶高通/联发科，就看展讯能不能搭上中国4G顺风车？

超算神威太湖之光相关文章：

栏目分类