曙光总裁历军谈下一代超级计算机
12月7日下午2:00-3:00,曙光信息产业有限公司总裁历军作客IT168高端访谈节目,皓辰传媒CEO王超与历军先生就"中国下一代超级计算机"的话题展开对话。
曙光是国内知名的专业服务器和高性能计算机制造商,由其生产的10万亿次曙光4000A在2004年曾经夺得全球高性能计算机TOP500排行榜的第10名,这是迄今为止中国厂商所取得的最好成绩,该系统目前仍是最快的国产高性能计算系统。在11月8日公布的中国高性能计算机TOP100排行榜中,曙光占据了29席,仅次于惠普。2008年中,曙光还将会发布下一代百万亿次的超级计算机曙光5000。以下是历军先生此次访谈中谈到的一些主要内容:
2008年中曙光将推出百万亿次超级计算机
到6、7月份,我们的曙光5000样机就会出现,这将是一种全新的、采用了大量先进技术的系统,也将是中国登峰造极的最高性能的计算机系统。
百万亿次是个什么概念?简单地说就是一秒钟可以执行一百万亿条浮点计算指令,这是很难想象的天文数字。打个比方说,我们要解一个100万节的线性方程组,用以前的机器可能要两个小时,而用百万亿次机在15-20分钟就能解完。
这样一个系统需要用到1万到2万颗CPU核,有了这么多内核,就可以通过作业调度系统把一个作业分解成两万份,让每个核分开并行计算。
它的占地面积也会非常小,300平方米的机房就够了。其耗电量大概在600-800千瓦特,会采用高密度的刀片系统和封闭的风冷系统。跟上一代的曙光4000A相比,在满负荷工作的情况下,曙光5000的功耗只提高了1倍,而计算能力却提高了10倍。而且通过一些节能降耗技术--比如根据负载动态调高或降低CPU的频率,因为主频越高,功耗也会越高--这些先进的技术还会进一步降低整个系统的功耗。
从立项到交付用户使用,曙光5000的研发周期大概需要3年的时间,目前来看,有可能会用到上海超算中心。上海超算中心是一家提供公共计算服务的单位。举个例子来说,一辆汽车从设计到下线,整个过程中的碰撞试验需要损毁掉88辆汽车,而有了超级计算机后,只需要实际碰撞8辆汽车,其他可以通过计算机来模拟,这会使得研发周期大大缩短。当然由于超级计算机非常昂贵,很少企业能够买得起,所以就可以通过上海超算中心这样的公开服务机构来进行模拟试验。
在不久的将来,曙光5000完成之后三年左右,千万亿次机也可能出现。相信那时还会给大家带来更大的惊喜,我们会用到国产的龙芯CPU。目前在曙光5000中,我们已经在进行龙芯CPU应用的研发,比如有一部分计算资源采用了龙芯。而到千万亿次机,国产CPU有可能会成为主角,这将具有划时代的意义。另外,曙光5000使用的集群体系结构其实已经快达到物理的极限,到千万亿次机时代,体系结构必须要改变。
刀片服务器标准不统一不利于用户,也不利于产业
谈到标准化问题,我们来看看,为什么市场上一台足以满足日常工作需要的笔记本电脑只需要两三千块钱?为什么从计算机专业角度来看并不完美的CPU能够得到普及?这都是标准化、开放化的结果。因为标准化之后,成本就可以降到很低。
在今天的一些数据中心里,服务器越来越多之后,机房的电缆很乱,管理起来很麻烦,系统可靠性也受到影响,而刀片服务器可以把服务器、网络交换、存储、管理等设备集成在一个机箱里,电缆大幅减少,体积大幅减少,加上刀片可以热插拔,管理维修也方便,可靠性和可扩展性也更好。当然这种高度集成化的产品对标准的要求也会更高。但现实的情况是,刀片服务器标准不统一。
标准不统一首先不利于用户,因为用户不可能只用一个厂商的产品,而且容易被一个厂商绑定,竞争因素大大减少;对服务器产业发展也不利,厂商各自为战,形成孤岛。当然,我们要做的是中国的刀片标准,希望所有厂商的刀片可以互换。比如说用户可以选择某一家厂商的机箱,但可以选择不同厂家的刀片。对厂商来说,标准化后,成本也会降低,可获得性更好,有利于厂商快速地推出产品。在国标上,也有类似的标准。我们不是全球性的标准,而是中国的标准,希望未来能成为国家的推荐标准,甚至在某些领域里成为强制标准,当然这也是开放性的。
目前,我们已经联合了一部分国内外厂商,象英特尔、中芯、联想等,而且已经有两项标准提案在信产部相关部门批准立项,在年底的工作组会议上就会针对这两项草案进行讨论。虽然大家的商业利益不同,但我们认为标准的原则是"公开、公正、协商一致",这也是商业利益的平衡过程。
曙光的技术附加值体现在服务上
曙光产品的定位是"不是最便宜的,但希望是最好的"。当然,有些应用领域是价格敏感型的,比如做WEB服务器,一般的网管就能搞定,但曙光更希望通过我们的技术为客户提供额外的附加价值。
我们认为,解决方案还不足以提供价值,方案从纸面变成系统、投入运行,在这个过程中有大量的工作要做。而且应用需求是不同的,一个方案不可能满足所有的需求。
比如说,我们有一个客户,随着业务不断增长,每年要投入大量资金购买新的服务器,每年支付的运营成本,如电费、IDC机房的机架租用费用、管理费用都大幅提高。曙光的对策是,通过软件优化来帮助这个用户提升运行效率,而不只是一味地让用户增添服务器。
因为计算机的效率最主要的环节可能不在计算机本身,应用软件的一次简单优化就可能把运行效率提升30%,比如指令的修改,是先加后乘,还是先乘后加,这些用户可能不知道,但我们可以做,我们有200多人的技术支持中心,其中有50多个领域的首席工程师,这些工程师不仅懂计算机专业,也熟悉物理、化学、气象预报等各领域的业务,可以为用户带来附加价值。
比如,我们可以帮助用户重写驱动程序,象一个网卡的驱动程序,原来网络数据包读到CPU中,要经过PCI总线、内存、缓存、CPU等三四次拷贝,数据量小时还觉察不出来,但数据量大了之后,这就会形成瓶颈。而我们通过重写驱动程序,可以让网络IP数据从网卡的缓冲器一次性读到CPU中,发现效率可以成十倍的提高。
而且我们还能做成专用的网卡,这个网卡上有一个专门的处理器,通过数据分析,把大量CPU不需要的东西丢弃,而把真正有用的数据传给CPU。正是通过这些技术服务、专用硬件研发等方法为用户带来了大量的附加价值。
- 博科和曙光携手将融合网络创新技术引入中国(05-26)