基于ADSP-BF533的MPEG-4实时编码器系统实现
变换IDCT,这里采用了ADI提供的优化代码,它基于chen氏快速DCT算法,大量运用了BF533特有的并行指令,完成一次8×8 DCT仅需293个时钟周期。
与I帧相比,P帧编码相对复杂,其中,运动估计是P帧编码最费时的部分,即在参考帧中搜索与当前编码宏块或子块最匹配的位置。
SAD(绝对误差和)准则具有无需乘除运算、实现简单方便等优点,选用它作为运动估计匹配准则。
运动估计搜索算法则采用菱形搜索法(又称钻石搜索法),搜索精度为半像素,菱形搜索法具有简单、鲁棒、高效的特点。
Blackfin汇编指令集中有专门用于SAD计算的指令SAA(src_reg_O,src_reg_1),一条该指令即可同时完成4个字节的SAD计算。此外,综合使用其它一些视频专用操作指令,如BYTEPACK(_将4个字节打包至一个3 2位寄存器中)、BYTEUNPACK(与BYTEPACK功能相反)、BYTEOPl6M(对4个字节作减法处理),可以使代码运行效率得到显著改善。
BF533集成开发环境VisualDSP++中还提供了Profile功能,可以利用该功能对程序代码性能进行评估,发现程序执行的瓶颈,从而进行有针对性的优化。主要的优化方法有:
1.尽量减少分支、条件判断指令,因为这些指令会破坏BF533流水线,造成额外的时钟延迟;同时,对部分较简单的子程序用宏改写,免去子程序调用过程中的堆栈操作和参数传递;
2.采用并行执行指令,BF533并非超标量结构DSP,但仍能有限地支持最多3条指令并行执行,如:saa(r1:0,r3:2)Ⅱr0=[i0++]Ⅱr2=[i1++];使用该并行指令即可在一个时钟周期内完成4个字节的SAD计算,同时完成r0、r2的数据更新,以便下次计算;
3.在DCT/IDCT的量化过程及其它一些模块中,要牵涉到除法,而BF533计算除法需要耗费大量时钟周期,因此,这里将除法变为乘以量化因子的倒数,求倒数可以通过查找表方式实现。再结合移位操作,即可在基本不损失精度的同时达到高效计算除法的目的。
经过前述的优化过程后,成功地在BF533上实现了MPEG-4 SP的CIF级实时编码。此外,对于CIF级CMOS传感器OV6630,系统可以直接对其实时编码。但如果是外接PAL制式模拟摄像头,经ADV7183作A/D转换后,其分辨率为720×576,受BF533的性能限制,尚无法对该级别分辨率做到实时编码,因此,应先使其分辨率降为352×288,然后再作:MPEG-4编码。
实验结果
BF533内核时钟(CLK)设为594MHz,系统时钟(SLK)为118.8MHz。选取CIF级标准测试序列flower(帧速率为25fps,共75帧)对系统进行验证。
图3、图4给出了分别采用I帧编码和P帧编码后的重建图像。I帧编码压缩率为11.5:1,重建图像信噪比为33.43dB。P帧编码压缩率则达到了65.7:1,重建图像信噪比为32.65dB。经采用BF533片内实时时钟RTC精确计时,整个视频序列共75帧,编码耗费2.27s,平均编码率达到了33fps,满足实时编码要求。
结语
本文介绍了CIF级别的MPEG-4 SP实时编码在BF533 DSP;DSP片上的实现,该编码器可以灵活地选用系统自带CMOS传感器及用户自选PAL制模拟摄像机两种视频采集源。该系统可以用在IP可视电话、交通检测、超市监视、智能小区安保等领域,具有很强的实用价值
ADSP-BF533 MPEG-4 实时编码器 相关文章:
- ADSP-BF533在低耗高速实时系统中的应用(03-08)
- 基于ADSP-BF533的家庭安全系统设计(03-26)
- 基于ADSP-BF533在低耗高速实时系统中的应用(05-04)
- 基于ADSP-BF533的数字通信信号发生器设计(04-28)
- 基于ADSP-BF533的MPEG-4实时编码器实现(06-13)
- 基于ADSP-BF533的μClinux嵌入式系统移植与开发(09-06)