面向对称多核体系结构的FPGA仿真模型研究及应用
3 仿真系统评估
本文的目标系统如图4(a)所示。它由多个计算节点以Torus片上网络连接构成,其计算节点数目可以根据应用需求进行扩展。对应的仿真系统如图4(b)所示。在仿真系统中,采用一个虚拟计算节点(VAU)代替目标系统中的p个计算节点,图4(b)以p=4为例,展示了仿真系统的结构。目标系统中p个计算节点的计算操作都由VAU以图2的工作模式完成。VAU中包含一个现场保存存储器(context backup),用于保存目标系统中p个计算节点的中间结果。contextbackup的容量为每个计算节点中本地存储器容量的p倍,这样,context backup就有足够的能力存储p个计算节点的中间结果,从而减少与外部存储器的数据交换,减少VAU的停顿时间。
采用FPGA EP2S180(拥有143 520 ALUT,相当于18万逻辑门)实现了多种结构(计算节点的数目不同)的目标系统和基于仿真模型的仿真系统,并利用相应的硬件综合工具Quartus分析仿真系统的FPGA资源开销。系统采用包含1个cluster的MASA流处理器作为计算节点。为更好地验证仿真模型,流处理器中采用功能裁剪的cluster,如图4所示,cluster中仅包含3个计算单元和1个I/O单元,并相应降低指令和数据存储器的容量。在仿真系统中,VAU中的processor为流处理器中的核心计算部件,context backup代替了片上存储部件,其容量为SRF的p倍。该实验的目的是分析所提出的仿真模型对仿真系统的硬件资源消耗和仿真速度的影响。
3.1 资源消耗分析
图5是目标系统和仿真系统的FPGA资源消耗统计。由于布局布线的需求,FPGA芯片的资源使用率最高通常只能达到70%~80%。图5中“×”标识表示当前配置超出EP2S180的仿真能力。可以看出,在不采用仿真优化技术时,EP2S180可仿真的最大规模目标系统为24个计算节点。基于本文的仿真模型,当p值等于4时,EP2S180的仿真能力提高至64个节点;当p值等于8时,其仿真能力提高至96个节点。当p值增大时,其仿真能力可进一步提升。实验结果表明,本文提出的仿真模型能够增大FPGA芯片可仿真系统的规模。
3.2 仿真速度分析
本文采用矩阵乘运算,分别在8、16、32个节点的目标系统和仿真系统上执行,测试二者的仿真速度。目标系统和仿真系统的工作频率为75 MHz。图6展示了二者的执行时间。
可以看出,仿真系统的执行时间大于目标系统。其时间增量主要是由于仿真系统将目标系统中多个processor并行处理的任务移植到一个VAU上串行执行造成。仿真系统没有改变目标系统的数据传输路径和模式,因此,数据传输的时间并没有增加。另外,由于VAU虚拟的p个pro-cessor共享了存储空间,仿真系统中消除了p个processor之间的数据传输时间。虽然仿真系统相对于目标系统执行时间有所增加,但其时间增量处于秒级。相对于缓慢的软件模拟器,并综合考虑仿真模型对FPGA仿真规模带来的好处,因此认为该仿真模型带来的仿真时间增量是可以接受的。
4 结束语
本文提出了面向对称多核体系结构的FPGA仿真模型,以及基于该模型的多核/众核、SIMD体系结构的执行模式。相对于软硬件联合仿真方法,该仿真模型减少了软硬件协同逻辑并避免了设计复杂的软件划分算法。实验结果表明,面向对称多核体系结构的FPGA仿真模型能有效地减少仿真系统FPGA资源的需求,增大FPGA的仿真规模,并且其带来的仿真时间增量是可接受的。但该仿真模型主要是面向对称体系结构,而不适用于异构多核系统等非对称结构。
- 嵌入式实时操作系统ARTs-OS的中断管理(01-17)
- 基于J2ME的无线网络应用开发(05-24)
- 面向构件的门诊部信息管理系统软件架构(10-16)
- 一种新的嵌入式内存数据库的设计方法(01-09)
- 独特的功能——只有MAX II CPLD能够提供(06-06)
- 采用低功耗28nm FPGA降低系统总成本(06-05)