基于DSP处理器上并行实现ATR算法
环执行互不相同的操作,可以把它们合并在一起组成一个循不。当两个循环的负荷都不满时,这是非常有用的。
④使用内联函数
TMS320C62x编译器提供的内联函数是直接映射为内联指令的特殊函数,内联函数的代码高效、代码长度短。用户可以使用内联函数并行优化C代码。
⑤使用字节访问短整型数据
内联函数中有些指令是对存储在32位寄存器的高16位和低16位字段进行操作的。当有大量短整型数据进行操作时,可以使用字(整型数)一次访问两个短整型数据。然后使用内联函数对这些数据进行操作,从而减少对内存的访问。
⑥软件流水
软件流水是用来安排循环指令,使这个循环多次迭代并行执行的一种技术。在编译时使用-o2和-o3选项,编译器可对循环代码实现软件流水;使用-o3和-pm选项,使优化器访问整个程序,了解循环次数;使用_nassert内联函数,防止冗余循环产生;使用投机执行(_mh选项)消除软件注流水循环的排空,从而减少代码尺寸。
在嵌套循环中,编译器仅对最里面的循环执行软件流水,因此对招待周期很少的内循环作循环展开,外循环进行软件流水,这样可以改进C代码并行执行的性能。使用软件流水还应当注意:尽管软件流水循环可以包含内联函数,但是不能包含函数调用;在循环中不可以有条件终止指令;在循环体中不可以修改循环控制变量。
(3)编写线性汇编代码
编写线性汇编代码是并行算法软件开发流程的第三个阶段。了提高并行算法软件代码的性能,对影响并行程序速度的关键C代码可以用线性编重新编写。编写线性汇编代码不需要指明使用的寄存器、指令的并行与否、指令的延迟周期和指令使用的功能单元,汇编优化器会根据情况确定这些住处。优化线性汇编代码的方法包括:为线性汇编指令指定功能单元,使得最后的汇编指令并行执行;使用字访问短整型数据;使用软件流水对循环进行优化。编写线性汇编代码的工作量非常大,需要很长的开发周期,而且开发后的汇编代码不能像C代码那样移植在其它的DSP平台上。
应用上述并行程序开发方法,在TMS320C6201 EVM板上实现了宽带毫米波雷达目标时延神经网络识别算法。经过实际测试,并行算法程序执行时间为0.850ms,满足了目标识别算法的实时性需求。
- 单片DSP处理器功能系统的SOPC技术设计(01-12)
- DSP处理器与通用处理器的比较(12-21)
- 基于DSP的H264数字视频服务器设计(09-12)
- BF51x DSP处理器超越MCU方案(03-08)