微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > MCU和DSP > Kalray MPPA解决方案实现无处不在的低功耗、实时单芯片超算

Kalray MPPA解决方案实现无处不在的低功耗、实时单芯片超算

时间:09-10 来源:3721RD 点击:

超级计算,对很多人来说并不陌生但仿佛又离得很远,或许大家对它的了解也仅仅限于"天河"超级计算机。其实,随着越来越多的应用对实时数值计算和数据处理提出极高的要求,超级计算正在越来越多地出现在与人类生活息息相关的领域。尤其是近些年来,随着云计算、大数据等IT新概念和新技术的出现,以及先进无损音视频处理和自动驾驶设备等嵌入式高性能计算的兴起,使很多原有应用迎来了突破性进展,并促使很多新的IT应用模式出现。而在这些应用背后,许多厂商正在全力实现的"嵌入式"实时超级计算解决方案,可以提供芯片级的高性能数据运算和处理能力。为此,北京华兴万邦管理咨询有限公司走访了业内率先实现单芯片超算(Supercomputing on a Chip)商用的法国Kalray公司,为大家一探"片上超算"给行业带来的新机会。

面向超级计算的多核处理器
为了完成普通PC或服务器无法完成的大量、复杂的计算任务,超级计算机要求拥有为数众多的处理器。然而,随着对运算速度越来越高的追求,单核处理器已经无法满足超级计算的要求,因为无休止地增加单核处理器的数量不但会造成成本和功耗的大量增加,而且性能也无法呈现几何级数的增长。于是,多核技术开始被大量应用于超级计算当中。以中国的"天河二号"超级计算机为例,其使用的主处理器和协处理器目前均为Intel公司的多核处理器。

目前,市场上研发并供应多核处理器芯片的厂商为数众多,以Intel和AMD两大处理器厂商为首,不同的多核处理器所面向的应用领域也不尽相同。除了面向PC应用的2核、4核处理器和面向手机和平板电脑的4核、8核处理器外,一些供应商推出的8核、16核处理器也已实现全面的商用,例如XMOS公司的xCORE系列多核处理器已被高解析度音频、千兆网速物联网等领域中的产品、解决方案所采用,该公司全新的xCORE-200多核微控制器通过在单一器件上集成16个或更多高性能32位RISC处理器内核,成为了高性能用户、专业音频与新兴千兆网速物联网(IoT)应用的完美可编程平台。

在众多的多核处理器供应商中,有一家面向超级计算相关应用的厂商正在越来越多地引起业界的关注,这就是全球首家可以提供256核以上处理器芯片的厂商--法国公司Kalray。Kalray公司是在单芯片上实现超级计算(Supercomputing on a Chip)的发明者,其大规模并行处理器阵列芯片MPPA(Massively Parallel Processor Array)处理器采用台积电(TSMC)的28nm工艺制程,拥有超过256个可以进行C/C++编程的内核。该公司的单芯片超算解决方案可以为两大类应用提供高性能、低功耗和实时等特性,一类是在数据中心、视频处理等应用中卸载主处理器的任务,另一类是需要较大量数据处理、高实时性和低功耗的嵌入式应用。下面为您具体介绍该公司的解决方案及其商业应用。

Kalray公司的256核MPPA处理器芯片

低功耗256核处理器芯片和标准C/C++编程环境
Kalray公司是一家成立于2008年的无晶圆厂半导体公司,它是开发多核处理器解决方案的先锋厂商。该公司创新的MPPA架构独一无二地提供单芯片超算解决方案,其可以为视频、网络、电信、大数据等领域的云计算应用实现实时加速,还可以为航空航天、国防、汽车等领域的嵌入式应用提供嵌入式高性能运算能力。Kalray公司的总部位于法国,包括位于巴黎和欧洲硅谷格勒诺布尔市(Grenoble)两个地点的办公室,此外,其在美国加州和日本东京还设有分公司。

Kalray公司的完整解决方案包括MPPA系列多核处理器、PCIe Gen3加速卡、提供网络加速支持的开源网络接口卡(Open NIC),以及软件开发工具包。该解决方案可以提供行业领先的低计算功耗,具有时间可预测性和低延迟性,以及独一无二的处理扩展性和系统密度,可以在同一块片芯上实现多种异构的应用,同时拥有很好的可编程性(包括标准C/C++和OpenCL)。

MPPA多核处理器包括Andey MPPA和Bostan MPPA两款产品。其中Andey为第一代MPPA处理器,已于2013年第1季度开始供货。它拥有超过256个可以进行32位超长指令字C/C++编程的内核,单精度浮点运算速度可以达到210 GFLOPS(每秒十亿次浮点运算),双精度浮点运算速度可达70 GFLOPS,运算速度可达0.7 TOPS(每秒万亿次运算)。该处理器拥有两块带宽为12.8GB/s的64位DDR3内存,以及两个由DMA支持的PCIe Gen3×8接口。Bostan为该公司即将推出的第二代MPPA处理器,目前已完成流片及样片的封装,将于2015年第4季度向先期客户供货。它的单精度浮点运算速度可以达到840 GFLOPS,双精度浮点运算速度可达420 GFLOPS,运算速度可达1.4

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top