国内最快HPC背后悬疑获解

时间：07-11 来源：比特网点击：

　　继曙光4000A成功"服役"之后，新一代机型曙光5000A再次落户上海超算中心。这一代HPC相比前代机型的性能提高了一个数量级，其系统峰值运算速度达到230TFLOPS，是目前国内速度最快的商用高性能计算机系统。它的技术创新如何体现，曙光又如何看待未来HPC的技术发展，日前，曙光副总裁聂华与记者交流了曙光5000A背后的故事。

　　曙光怎样设计5000A

　　曙光5000A的技术参数已在发布时曝光，可具体技术细节却鲜有透露。聂华介绍说，曙光5000A的结构非常简练，高性能计算机是用互联网络将很多计算单元耦合在一起的，为了增加耦合效率，设计厂商曾构建了管理网络、存储网络、以太网络等各种网络。这一次，曙光5000A极大简化了整体网络结构，实现了多网合一。其体系结构也不同于传统集群或架构巨量平行处理架构(MPP)，曙光提出超并行体系处理架构(HPP)，除结合集群结构易扩展、易编程的优势外，还在高密度、高性能和耦合方面有了突出进展。

　　

曙光5000A多网合一体系结构图

　　硬件架构之上是软件结构，软件才是用户运用高性能计算机的窗口。从基础部件层、系统软件层等底层开始，曙光5000A搭建了一个9层的软件架构，从域服务、资源调度、安全等层次进行有机组合。在应用层，曙光5000A拥有丰富的科学计算、商业计算以及信息化应用软件，为用户提供了实用基础。

　　除了架构创新之外，曙光5000A的另一项引人关注的技术创新是高密度刀片服务器，这是曙光5000A最核心的计算单元。该刀片总体架构为7U架构，里面有10片计算刀片。值得强调的是，每片刀片集成了4路SMP的4核处理器，这就构成了7U空间共计160核的超高密度设计，为常见1U服务器密度2.86倍。在刀片当中，它还整合了网络模块、管理模块、IOE扩展模块和冗余电源模块，尤其是内置DDR Infiniband HCA和交换模块，这是曙光创新的设计。这样，相邻结点MPI延迟为1.6us左右，而普通DDR交换机为3us以上，这一延迟直接影响着提升并行效率。同时，在内置之后，系统减少了50%的高速IB线缆的数量，大量IB连线对现阶段构建大规模集成网构成了威胁，铜缆容易形成不稳定连接。因此，尽可能减少高速IB连线的数量，对于提高IB稳定性来说意义很大。进一步设想，整个系统还提供10个PCI-E 8X IO扩展插槽，虽然这些插槽目前处于闲置状态，但如果都插上加速卡，就可以针对特别应用构建专用系统，这将带来广阔的应用扩展空间。

　　胖节点则为计算子系统解决更具挑战性的问题提供了保障。曙光配置了大约1/10规模的胖节点，与4路SMP结构运算节点配合。在4路计算刀片中，每个核可以进行64GB直接内存寻址，这意味着具有挑战性的一些工程计算程序可以更好地运行，胖节点则使每个核访问128GB内存成为可能。胖节点采用了改进的8路SMP处理结构，8个处理器之间实现交叉互联，实现了每个刀片32个核的SMP扩展。曙光不只实现了设计峰值的高性能，也非常注重这款机型的高可用性。"针对集群系统曾流行一个观点，当发展到1万个处理器核心时，系统的不可靠程度将增加，但曙光可以负责任地讲，曙光5000A可以稳定工作。"聂华说。

　　曙光为何钟情AMD

　　在今年公布的HPC TOP500榜单当中，基于英特尔处理器的系统占了绝大部分的市场份额。为什么在英特尔有着明显优势的市场，曙光在开发新机型时却选择了联手AMD?尽管曙光5000A采用的是AMD的巴塞罗那4核处理器，但聂华毫不否认，英特尔的处理器非常出色。"英特尔4核处理器的主频就要比巴塞罗那表现得要好，这在TOP500的峰值测试中是非常占有优势的。"聂华说，"但最终让曙光决定采用巴塞罗那的原因是由产品本身的设计决定的。"

　　聂华说，曙光5000A当时的定位就是高效能计算机，而并非单纯的高性能计算机。尽管当前的2路计算刀片已经非常成熟，但曙光还是决定研发高密度的4路计算刀片，这在保证提高生产力的同时，也能降低了系统规模，提高系统稳定性。对于这项设计来说，曙光认为AMD提供的巴塞罗那架构是理想选择。集成内存控制器的"直连架构"为目前AMD所独有，处理器直接访问内存能够降低延迟，而且能扩大内存带宽。在高性能计算领域，从CPU核心到内存之间的数据交换往往受制于带宽限制，这一现象导致的"内存墙"限制了系统整体性能的提升。"当然也有市场因素。但技术层面原因是最关键的。"聂华说，"英特尔的下一代架构也将采用直连技术，到那时就没有任何差别了，这也是未来趋势。"

　　曙光如何看混合架构

　　在IBM突破千万亿次计算的"走鹃"发布后，混合架构成为业界争论的焦点。究竟哪些系统适合采用混合架构，它与软件调优哪个才是HPC的发展趋势?聂华表示，混合架构与软件调优是相互关联，但又完全不同的两个方向，硬件加速针对特别应用，软件调优则使用相应工具，整体可以获得更好的并行性能，它们都可能为系统性能带来几倍甚至几十倍的提升。

　　从曙光5000A本身的情况来看，系统中完全预留了协处理器的插槽位置，完全可以使用龙芯、FPGA甚至商用化硬件作为加速器。但这次曙光5000A并没有采用加速器，这是与其用户的应用环境密切相关的。上海超算中心的特点是超大规模的通用计算平台，面向的用户众多，只要是高性能计算的，都可以在这个平台上进行。而国外的高性能计算机则多是单个用户专注于某项特定应用，如IBM的"走鹃"就是为美国洛斯阿拉莫斯国家实验室特别定制的。在这种情况下，对于上海超算中心来说，根本不能全部插上加速卡，只能面向部分特定用户构建少量加速结点。聂华表示，正因为上海超算中心是通用计算平台，所以曙光5000A要选用通用CPU和通用架构，这样对用户来说才实现了价值最大化。

　　如果某个用户对计算能力的要求足够高，或者可以面向具有同样特定应用的一类用户群提供服务，专用的加速器技术也将会在曙光5000A或后续机型上推广应用。

上一篇：计算机在新型多电机同步系统中的应用
下一篇：光纤适配器的插入损耗

栏目分类