微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 中国公司挑战英特尔服务器CPU市场是痴人说梦?ARM说看我的

中国公司挑战英特尔服务器CPU市场是痴人说梦?ARM说看我的

时间:05-13 来源:微型计算机 点击:

发了各自的ARM服务器CPU。虽然AMD依旧把重心放在x86 CPU上,即便高通早就公布了服务器CPU的规划,Centriq 2400要到2017年年末才会问世,但并不意味着国外厂商的ARM服务器CPU是只打雷不下雨。相对于进入该领域较晚的AMD、Cavium、高通等厂商,APM虽然名声不显,但由于在2010年前后就着手开发ARM服务器CPU,确实做出了性能不错的ARM服务器芯片,而且这些产品在数据中心、互联网服务器等领域已有了批量的应用。

目前,APM的X-Gene已经发展到了第3代。X-Gene3集成了32个核心,计划采用台积电16nm制造工艺,主频3GHz,最大功耗约为125W。根据Linley Group的报道,其模拟器测试成绩Spec2006单线程定点性能在550分左右。X-Gene 3XL是X-Gene3的升级版本,计划将32核升级为64核,并将SPECint_rate2006测试提升到1000。在单线程性能上,X-Gene3也非常亮眼,大约在17左右。由于Linley Group给出的单线程性能并不是通常说的单核测试性能,而是用rate分值/线程数,所以推测X-Gene3在模拟平台上的单核性能很有可能已经达到20左右了,这在ARM生态圈中是首屈一指的。

不过,由于X-Gene3尚未有样片,所有的性能都是模拟平台的结果,根据经验,由于硅前模拟平台的局限性,其模拟测试结果与硅后实测都会有一些出入,比如FT2000的模拟器成绩为SPEC2006定点672、浮点585,而实测成绩为定点570、浮点482。所以不太适合用X-Gene3的模拟器成绩与FT2000的实测成绩做比较。不过就单核性能而言,X-Gene3明显是占据优势的,FT2000的单核与X-Gene2性能相当,X-Gene3相对X-Gene2在分支预测和TLB方面做了改进,性能提升了10%左右,而且X-Gene3的频率为3GHz,也比FT2000的2GHz高出50%。

就芯片特征参数来看,X-Gene3的片上缓存为32MB(三级缓存),FT2000的片上缓存也是32MB(二级缓存,三级缓存在片外,是128MB),X-Gene的存储控制器是8个DDR4,且在片内,而FT2000的存储控制器是片外扩展16个DDR3。所以在存储带宽和容量上FT2000有优势,但访存延迟FT2000要大一些,处于劣势。IO方面,X-Gene3是42lane的PCIe 3.0,FT2000是32lane,稍逊一筹。

所以总的来说,FT2000与XGene3处在同一性能水平,都是one socket形式,存储和IO扩展能力也相当。不过,FT-2000年中已经有了样片,而且即将量产,X-Gene3目前还没有样片,这是FT2000的最大优势。

和Intel相比差距在哪里?

无论是FT2000,还是X-Gene3,虽然在多线程性能上达到了Intel中高端服务器CPU的性能,但在单线程性能上,还是有不小的差距。即便主频控制在2.5GHz,Intel服务器CPU的SPECint_base2006成绩也在25以上,而FT2000的SPECint_base2006只有12.4,X-Gene3也只有20。那么,单线程性能差距还带来什么影响呢?

单线程性能相对有限会对计算密集型场景有影响,对于无法并行化、单任务延迟敏感的应用场景力不从心。比如在IC设计中用到的一些EDA工具软件,由于并行化做得还不够好,单线程性能弱的CPU在运行时会比较吃力,跑模拟、综合、优化等任务花费的时间会较长。即便全芯片整体性能与Intel的部分服务器CPU性能相当,但由于单线程性能的不足,在部分应用场合,FT2000是无法达到Intel服务器的应用效果的。

不过,FT2000的优势在于并行性能,对于能够并行化、多任务的应用场景,FT2000能够取得不错的应用效果。比如一些互联网服务器,由于任务非常多,而每个任务的运算量不大,却对CPU吞吐率要求高,这种场景非常适合FT2000。

FT2000与Intel的服务器CPU的差异有点像当年的power和ultrasparc的技术路线之争。power是核数少线程数少,但单线程性能高,类似与现在Intel的CPU。ultrasparc是核数多线程多,单线程性能差,类似于FT2000。前者更适合充当高性能服务器,后者主要是面向网络的吞吐量高和并发度高的服务器。产生这种现象一方面可能是因为以国内的技术实力无法做出可以匹敌Intel单线程性能的CPU,另一方面也可能是在晶体管资源有限的情况下,面向不同应用做了取舍。

有观点认为,FT2000打平Intel Xeon E5-2695 v3是64核战14核的结果,言下之意就是国产CPU只能靠堆核心数。但实际上,简单堆砌核心并不一定能实现1+1=2。服务器芯片的性能很大程度上还要受存储、互连等部件性能的影响-片上集成的核数越多,对存储和互连的设计平衡性要求越高。如果平衡性做得不好,并行性能的扩展性就会直线下降,在此情形下,盲目的堆核心数量未必能获得想要的效果。而FT2000整体架构较好地实现了计算资源与存储和互连资源的平衡设计,所以从单核到

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top