微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 史上最全,龙芯家史大起底

史上最全,龙芯家史大起底

时间:08-24 来源:雷锋网 点击:

面技术底蕴不足,它既没有能力,也没有意志扛起MIPS阵营的大旗,指令集扩展和微结构研发都不如龙芯。

而龙芯只要保持现有的发展势头,使应用软件跟着龙芯走,构建并壮大自己的产业联盟,那么龙芯对Mips的扩展就是行之有效的,而且有机会夺取Mips阵营的主导权。

7、编译器

程序员在编程的时候写的是编程语言,但是计算机运行的时候是机器语言,编译器就是将程序员的编程语言翻译成机器语言的工具,而编译器的好坏也非常影响一款计算机的整机性能,比如SUN就曾经依靠对编译器的优化使CPU的spec跑分提升了50%,大幅提升了整机性能和用户体验。

国际上使用最为广泛的编译器是GCC,该编译器对X86、ARM、MIPS、Alpha等指令集的CPU优化各不相同,对市场占有率高的X86和ARM优化得较好,版本也比较新(GCC部分代码就是Intel提供的),但对龙芯、申威的优化比较差,版本也比较老旧。

因此,龙芯自主研发了LCC以提高编译器的效率,虽然LCC诞生的时间还很短,对自家CPU的优化能力无法与Intel公司的ICC编译器相比较,以GS464E的spec2000跑分为例,使用LCC比使用GCC4.8整数提升7%,浮点提升36.8%。毕竟万丈高楼平地起,期待龙芯能不断提升LCC编译效率。

8、微结构和主频

CPU性能(单核)=主频*IPC(这个公式必须是同指令集才能成立,不同指令集不可比较)。主频就是CPU工作的时钟频率,同一款CPU在一个时钟周期内完成的指令数量是固定的,因此主频越高,完成一个时钟周期所消耗的时间越短,CPU的运行速度就越快。

IPC是单位时间内调用的指令集数量,微结构设计得越好,单位时间内能调用的指令集数量越多,CPU的性能就越好。微结构好坏取决于前端设计水平,主频的高低一方面受微结构流水线级数的影响,但更多的是取决于后端的设计水平。再往细的方面说,前端设计主要指芯片的执行结构、数字逻辑层设计、执行状态仿真等方面,后端设计主要指物理层电路的具体优化,包括单元布局、时序优化等方面。

微结构研发不仅技术门槛高,而且费时费钱,一个微结构从研发到产品一般需要3年,而所需资金更是难以计数。龙芯自2001年以来,共研发GS132、GS232、GS264、GS464、GS464V、GS464E共6个微结构,以龙芯及其有限的人力和财力,实现了以平均2.33年更新一个微结构的发展速度,相较于国家非常有限的扶持,龙芯拿出了远远超过投入的产出。

龙芯在2015年8月发布的GS464E微结构测试参数非常亮眼。根据中电集团的测试报告,GS464E的SPEC2000使用GCC4.8编译器跑分为:整数768/G、浮点1153/G,使用LCC编译器跑分为:整数828/G、浮点1578/G,微结构的效率在整数性能方面基本追平了AMD目前最好的微结构,在浮点性能方面接近Intel在2013年发布的Ivy,分支预测和访存带宽更是能直接与Ivy比肩(Intel公司2013年的Ivy和2015年的Skylake差距很小)。

现在,龙芯和国外巨头在微结构方面的差距已经比较小了,差距主要在主频方面和制程工艺方面。在主频方面,2015年发布的龙芯3A2000的主频只有1G,而代码已冻结,即将流片的龙芯3A3000的也只有1.6-1.8G的主频。相比之下,Intel的CPU主频大多在3G以上,部分CPU主频接近4G;在制程工艺方面,受限于中芯国际的代工水平,龙芯能使用的最好的制程为28nm,而市面上出售的Intel芯片制程大多为22nm,Intel最新的产品普遍采用14nm制程工艺。

9、龙芯产品

目前,龙芯有龙芯1、龙芯2、龙芯3三个系列。武汉数字工程研究院研发了基于龙芯1A的可信移动终端。龙芯1B多用于工业应用,有工业以太网交换机、网络税控机、北斗车载终端和嵌入式数据采集器等产品。龙芯1C是针对民用市场定义的芯片,被用于智能指纹锁、3d打印机、开源主板、考务终端、考勤/门禁等产品。龙芯1D、1E、1F是直接根据特地客户提出的需求定制的,龙芯1D是超声波热表、水表和气表测量专用芯片;龙芯1E和1F是宇航级芯片,被用于北斗卫星。

龙芯2系列芯片的微结构为GS264,龙芯2F被用于上网本和一体机等产品。中国兵器工业集团研发了基于龙芯2F+1A的四余度火控计算机系统。龙芯2H被用于上网本、防火墙、交换机、车载计算机平台等产品。龙芯2K是工控芯片,用于数控机床。龙芯2J是按军方需求定制,该芯片被用户单位总师评价为,"已知范围内性能最高,设计最复杂的军品CPU。"龙芯3A1000微结构为GS464被用于笔记本。

龙芯3B1000和3B1500微结构是GS464V,3B1000被用于高性能计算机KD-90和超算曙光6000,KD-90集成了10片3B1000处理器,理论峰值计算能力达到每秒1万亿次。曙光6000超算使用了2500片3B1000,

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top