基于FPGA PCI的并行计算平台实现

时间：11-07 来源：互联网点击：

3 实测性能分析

实际系统中算法CORE运算时钟为20MHz，64bit数据宽度输入；采用多级流水线设计及运算速度就是系统运行时钟的速度。除运算初期流水线建立过程和运算结束时流水线完成过程，运算速度均可视为20MHz；实际制成的系统为四片算法FPGA并行运算，实际吞吐量为4×20M×16bit=1．28Gb；经Ahem Quartus 4．1综合，实际仲裁逻辑占用3725个逻辑单元。综合频率最高为156．2MHz，单算法逻辑占用7718个逻辑单元，综合频率最高为37．10MHz。

典型的普通PC机定点运算需要多个指令周期，包括取指令、取数据、计算、保存数据等指令周期，而一个x86指令周期又由多个CPU时钟周期组成，大大降低了实际运算速度。由于单个CORE以20MHz时钟流水线运算，相当于一台普通PC机的运算速度，因此多个CORE并行运算即可达到多台PC机并行运算的效率。

采取密钥字典自FPGA穷举产生方式，可发挥算法CORE的最大效能。若采取密钥字典自PC机下载方式，则实际速率由PCI总线最高速率决定。但由于字典可以人为选取，大大降低了密钥选取的盲目性。本系统接入普通PC机上32bit、32MHz的PCI总线，单算法CORE连续运算(64bit×20MHz)即可满足PCI总线全速下载。若使用64bit、66MHz的PCI总线或PCI EXPRESS，将进一步提高系统的实际吞吐量。

本文提出了一种基于FPGA的适合大规模数字信号处理的并行处理结构，利用CORE的可置换性，可以针对不同应用的数字运算设计不同的CORE，系统通用性的特点非常显著。一台普通PC机中可以同时插入数块PCI卡。每块卡上的任意一块算法FPGA都可提供相当或超过一台普通PC机的运算速度。而每增加一块算法FPGA，在效率提高一倍的前提下，功耗增加不超过10W，而体积几乎不变，成本也只是比普通PC机增加了五分之一。因此．本文提出的并行结构具有极高的性价比。

如果将PCI总线接口模块集成到FPGA中以取代PCI9054芯片，将进一步降低硬件成本，减少硬件设计的复杂度；因实际运算速度与算法的并行度和优化有密切的关系，因此，设计不同应用的CORE以及相关算法的优化是下一步要进行的重要工作。

上一篇：基于CPLD的并口数据的采集和存储
下一篇：一种用CPLD实现的短帧交织器设计

总线 FPGA LTE Quartus 相关文章：

栏目分类