微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > Mali GPU编程特性及二维浮点矩阵运算并行优化详解

Mali GPU编程特性及二维浮点矩阵运算并行优化详解

时间:07-07 来源:互联网 点击:

时,发现输入数据量较小的时候,并行方案没有串行方案的效率高,因为计算过程大部分都消耗在数据的传输上,由于计算量小,GPU端的计算瞬间完成,没有办法将Mali GPU访存的延迟掩盖,所以此时访存速度较快的CPU端的串行方案反而效率更高。

  当计算量逐步增加的时候,Mali GPU的并行能力逐渐体现出其优势,加速比有显著提升,当计算量大到一定程度的时候,加速比趋于稳定,因为这时Mali GPU上有大量的线程切换,不仅隐蔽了访存的延迟,也使得Mali GPU上的计算单元满载,其计算效率已达到硬件能够承受的极限,此时Mali GPU可以提接近40倍的供惊人的加速比。

  实际测试时,笔者使用top指令观察矩阵进程的CPU占用量,串行方案的CPU占用量在98%左右,而基于Mali GPU的并行方案对CPU几乎没有占用量,说明并行方案不仅可以提升计算效率,还降低了CPU的负担,大大提升了系统实时性。实验的实际测试结果和GPU 异构运算特点吻合。

  4.结语

  本文针对Mali-T604 GPU论述了基于OpenCL的Linux平台上进行通用计算并行优化的方法,论述了Mali-T604 GPU的硬件特点,并基于OpenCL设计了二维矩阵乘法的并行方案,在Mali-T604上获得了惊人的加速比,结果表明Mali GPU对于庞大输入量的计算密集型高度可数据并行化通用计算问题有显著的加速能力,且并行优化结果正确可靠。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top