H.264编码器中亚像素运动估计的硬件实现
帧重构时从Sram中直接取出最佳的预测值给相关的模块。由于如上文所述在对每个4×4块进行亚像素搜索时要计算出对应的5×5块(如图7所示4×4块对应的5×5块)的每个整像素点左上角的15个亚像素点的值(如图8所示的15个亚像素点),加上最佳整像素点共16个像素点的值都要存储起来,且对应的5×5块中的每个整像素点左上角的亚像素点的像素值都是并行计算出来的(如step1计算点2,是将对应的5×5块的25个整像素点左上角对应的点2一次全计算出来),所以在进行一个4×4块的亚像素搜索时,要存储的像素点共有25×16个。由于在本设计模块中每次能并行处理两个4×4块单元,即利用两套FME模块资源并行处理两个4×4块的亚像素搜索,一个宏块(16×16)要分8次完成。考虑到数据组织的方便性,本设计在一套FME模块中开辟两块Sram资源,一块大小为104×128,一个地址存储13个像素点的值(每个像素点的值占8bit),另一块大小为96×128,一个地址能存储12个像素点的值(每个像素点的值占8bit),地址深度128刚好能存储8个4×4块的亚像素点的像素值,所以两套FME模块中的Sram资源刚好能把一个宏块的亚像素点的像素值都存储起来。此设计在硬件的实现过程中计算并行度高,硬件实现简洁有效。
根据图6所示的硬件架构及上文描述的算法原理,利用Verilog HDL对其进行建模,建立测试平台在ModelSim环境中进行编译、仿真,验证其功能的准确性。然后使用Synplify工具对其进行综合,工作频率可达68MHz。在FPGA 验证平台上,可实现对高清码流(1920×1080)的编码,利用Design Complier工具进行综合,在中芯国际0.18μm 工艺标准单元库的基础上,综合后面积占150千门,工作时钟频率可达166MHz,达到了预期要求。
结语
H.264中的分数运动估计能有效提高预测精度,但大大增加了计算复杂度。同整数运动估计一样,分数运动估计存在两个主要问题,一是计算量大,二是存储访问量大。而本文提出与其他实现方法相比在空间上具有更高的并行度,处理能力更高,不但减少了大量中间数据的存储与传输,节省了存储器资源,而且简化了数据流和控制流,使硬件实现简洁有效,非常适合高分辨率视频的分像素运动估计。
- 光电编码器在电机控制中的应用(03-02)
- 支持热调节和输入过压保护功能的安全增强型线性锂电池充电器(08-16)
- 编码器元件及其应用(03-18)
- 可区分粗细的自适应旋转编码器设计(11-12)
- 旋转编码器在线速度检测控制中的应用(11-17)
- 旋转编码器安装方案(12-21)