Board从入门到精通系列（八）

时间：02-11 来源：网络整理点击：

= 0;i<N;i++)

{

data_type sum = 0;

for(j = 0;j<N;j++)

{

sum += AA[i*N+j]*bb[j];

}

cc[i] = sum;

}

将TestMatrixMultiply.c内容改为：[cpp]

#include <stdio.h>

typedef int data_type;

#define N 5const data_type MatrixA[] = {

#include "A.h"

};

const data_type Vector_b[] = {

#include "b.h"

};

const data_type MatlabResult_c[] = {

#include "c.h"

};data_type HLS_Result_c[N] = {0};

void CheckResult(data_type * matlab_result,data_type * your_result);

int main(void)

{

printf("Checking Results:\r\n");

MatrixMultiply(MatrixA,Vector_b,HLS_Result_c);

CheckResult(MatlabResult_c,HLS_Result_c);

return 0;

}

void CheckResult(data_type * matlab_result,data_type * your_result)

{

int i;

for(i = 0;i<N;i++)

{

printf("Idx %d: Error = %d \r\n",i,matlab_result[i]-your_result[i]);

}

首先进行C语言仿真验证，点这个按钮：

结果如下：

从C仿真输出看到，仿真结果与matlab计算结果一致，说明我们编写的C程序MatrixMultiply是正确的。接下来进行综合，按C仿真后面那个三角形按钮，得到结果如下：

注意到，计算延迟为186个时钟周期。这是未经过优化的版本，记为版本1。为了提高FPGA并行计算性能，我们接下来对它进行优化。打开MatrixMultiply.c，点Directives页面，可以看到我们可以优化的对象。

注意到矩阵和向量相乘是双层for循环结构。我们先展开最内层for循环，步骤如下：右键点击最内侧循环，右键，然后Insert Directive...

弹出对话框如下，Directives选择UNROLL，OK即可，后面所有都保持默认。

再次综合后，结果如下

可见效果非常明显，延迟缩短到51个时钟周期。用同样方法，展开外层循环，综合后结果如下：

计算延迟又降低了1/3！！！可是代价呢？细心的你可能发现占用资源情况发生了较大变化，DSP48E1由最初的4个变为8个后来又成为76个！！！FPGA设计中，延迟的降低，即速度提高，必然会导致面积的增大！循环展开是优化的一个角度，另一个角度是从资源出发进行优化。我们打开Analysis视图，如下所示：

从分析视图可以看出各个模块的运行顺序，从而为优化提供更为明确的指引。我们发现AA_load导致了延迟，如果所有AA的值都能一次性并行取出，势必会加快计算效率！回到Synthetic视图，为AA增加Directives：

选择Resources，再点Cores后面的方框，进入Vivado HLS core选择对话框

按上图进行选择。使用ROM是因为在计算矩阵和向量相乘时，AA为常数。确认。仍然选择AA，增加Directives，如下图：

选择数组分解，mode选择完全complete，综合后结果如下图：

延迟进一步降低，已经降到11个时钟周期了！！！是否已经达到

上一篇：基于Xilinx Zynq UltraScale+ MPSoC的VPX3
下一篇：基于Dragonbaord 410c开发板的Python交互设计（2）——如何获取天气数据

HLS board RLC 相关文章：

栏目分类