微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 模拟电路设计 > 基于ADSP-BF533处理器的滤波器的实现及优化

基于ADSP-BF533处理器的滤波器的实现及优化

时间:08-02 来源:互联网 点击:

  
c) 在JM86参考代码中对于一个亮度宏块的16×4共64条像素边缘的BS值逐条获取,而通过对BS获取条件进行分析可知,处于两个子块间垂直边缘或水平边缘的4条像素边缘的BS值分别是相等的。因此,对一条边缘仅要进行获取第1、5、9、13条像素边缘的BS值,再赋给相应的其他像素边缘即可,由于获取BS值的操作位于循环中,需要经过许多判断及运算,通过这一改进,大大简化了计算复杂度。
  
d) 参考代码中的循环内部有很多语句与循环参数无关,可以将这些语句调整至循环外部,避免了冗余计算。
  
3.2.3 利用BPP分块处理技术解决片外数据频繁调用的问题
  
针对频繁调用片外数据影响了程序的运行速度的问题,采用BPP分块技术进行优化。在片内的L1缓存中开辟3块空间分别存放待滤波的亮度分量、色度U分量、色度V分量。根据每个宏块进行滤波时可能涉及的像素范围,在对CIF图像进行滤波时,将一帧的396个宏块分成4类:A类为第1个宏块,其上边缘和左边缘都是图像边缘,对其滤波前读入的亮度数据是16×16,色度数据是2个8×8;B类为第1个宏块行中除去第1个宏块的其余宏块,其上边缘是图像边缘,对其滤波前读入的亮度数据是16×20,色度数据是两个8×12;C类是第1个宏块列中除去第1个宏块的其余宏块,其左边缘是图像边缘,对其滤波前读人的亮度数据是20×16,色度数据是2个12×8;D类是除掉A、B、C这3类宏块的其余宏块,也就是上边缘和左边缘都在当前图像内的宏块,对其滤波前读入的亮度数据是20×20,色度数据是2个12×12。
  
进行滤波时,首先按宏块的类型以不同的数量从片外的数据缓存中整块地读入亮度和色度数据到片上的3块滤波缓存,然后进行滤波处理,并将结果数据重新存储到片外存储空间中。通过这种方法,一方面在一定程度上减少了频繁调用片外数据的时间,提高了运行速度;另一方面通过对待滤波宏块的细分,减少了参考代码中的判断引起的流水线中断,也在一定程度上提升了程序速度。
  
3.3 汇编级别的优化
  
BlackfinBF533处理器的内核支持C或C++语言,但由系统自动将C程序翻译成汇编语言效率比较低下,因此对一些系统调用比较频繁、耗时较多的模块,可以用人工将其转化成高效率的汇编语言来提高运行速度。主要通过以下几个方面来提高程序的速度:
  
a) 以寄存器变量代替局部变量。在C语言中,子程序和函数中往往使用局部变量来暂时存放数据。当程序运行时,编译器为声明的所有局部变量开辟临时内存空间,对于局部变量的存取操作都涉及到内存的存取,而内存访问的速度相对于寄存器访问是很慢的。因此,可以利用系统中的数据寄存器、指针寄存器来替代仅仅起暂存作用的局部变量,从而大大节省系统访问内存带来的时间延迟。但由于系统中的寄存器数量对于局部变量来说相当有限,因此必须合理高效地使用寄存器。
  
b) 以硬件循环代替软件循环。软件循环是指在for或while等循环的开始或结尾处设置判断条件来控制循环的开始、继续、结束。软件循环的条件判断指令会动态地选择分支,一旦发生跳转,会阻塞流水线,而保持流水线的畅通是保持高效运行的关键因素。Blackfin处理器有专用的硬件支持两级嵌套的零开销硬件循环,这种方式不需要判断条件转移,DSP硬件根据预定的循环次数自动执行循环并结束循环,从而保证了流水线的畅通,提高速度。
  
c) 充分利用数据总线宽度。Blackfin533外部数据总线宽度32位,一次可存取4字节。因此,充分利用数据总访问宽度,特别在操作大量数据时,保持一次存取4字节,可减少指令周期数,从而提高执行速度。

d) 高效使用并行指令和向量指令。并行指令和向量指令是Blackfin系列DSP的一大特点。通过对并行指令的使用,可以充分发挥Blackfin处理器的SIMD系统结构的优点及硬件资源的并行处理能力,减少指令数,从而提高程序执行效率。往往通过对程序的合理安排可以做到使用1条并行指令来替代2条或3条非并行指令。向量指令则充分利用指令宽度,同时对多个数据流进行相同操作,如要进行2个16位的算术或移位操作,完全可以通过1个32位的向量指令来实现,从而以1个时钟周期来实现原来2个周期的工作。例如R3=abs R1(V)就用1个指令周期同时实现2个16位数据的求绝对值操作。
  
e) 合理配置数据存储空间。限于DSP片内和片外数据存储空间的访问速度和容量特点,片内空间存取速度快但容量很小,而片外空间较大但访问速度慢,因此,合理地分配数据存放位置对于提高程序的运行速度是十分关键的。对于使用频率高的数据尽量放在片内空间中,而不常用的数据放在片外空间中。若要存取位于片外的数据时,应将待存取的数据尽量安排成连续分布,一次将大块的片外数据读进片内缓存,避免频繁读取片外数据带来的时间浪费。
  

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top