微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 模拟电路设计 > 全硬件视频处理引擎简化视频系统设计

全硬件视频处理引擎简化视频系统设计

时间:04-20 来源:互联网 点击:
数字视频处理始终是目前多媒体设备应用中的热点问题。数字视频的标准繁多,并且在还持续地发展变化之中,因此,系统设计必须能够尽可能支持更广泛的视频格式。传统的选择是采用DSP进行软件编解码,但随着1080i/p的高清视频应用的迅速普及,其所要求的运算量也在急剧增长,基于软件的处理方式逐渐开始面临极大的挑战。而基于硬件加速器的方案优势则开始显现,这种方式可以大大减轻处理器负载,并满足移动设备苛刻的低功耗要求。目前,越来越多的系统方案开始采用基于全硬件视频处理引擎(VPU)的设计。

  飞思卡尔i.MX53应用处理器提供了基于硬件加速器方式的典型结构,其内嵌的全硬件VPU支持从H.264、MPEG4、Divx到RV10在内的非常广泛的视频格式,可以涵盖绝大部分视频资源,并支持1080i/p高清解码和720p编码。此外,该处理器还可以同时进行多路视频解码和全双工多路视频编码处理,并且允许每一路视频采用不同的格式,从而可实现双显示器配置或视频电话会议应用等。

  典型的硬件视频处理引擎结构

  与通常意义上的全硬件VPU不同,该VPU的一个显著的优势在于可以在一定程度上提供可编程性,以及编解码流程的更新。原因就在于其内置有一个16位的小型可编程DSP,这个名为BIT的处理器可以通过执行不同的固件来灵活控制编解码的过程以及和CPU的接口 交互。

  对于CPU来说,控制VPU所需要的运算量不超过1MIPS,如此之低的计算需求同样归功于BIT处理器。它的内部包含了专用硬件加速器来加速码流的处理,实现了包括帧率控制、FMO、ASO、视频编解码控制以及错误恢复等功能。VPU内大部分的子模块也经过高度优化,在编解码各种不同视频格式时可以充分复用,从而降低了门数和功耗。

  MX53的VPU结构如图1所示,它通过标准的AXI/APB与ARM处理器相连,从而可以访问片内缓存来获得高性能。VPU主要包括两个组件,视频编解码处理IP和VPU总线转换器。前者是整个VPU的核心,主要由嵌入式BIT处理器,视频CODEC以及总线仲裁器组成;后者负责将AMBA APB3总线转换成VPU内部的IP Sky Blue总线。

  


  视频解码处理流程

  得益于BIT处理器的高度完善的控制流程,从外部的CPU角度来看,VPU是高度自主控制的,CPU所需要做的仅仅是与VPU相关的进程管理工作。需要注意的是这里的进程并非指通常意义上的系统进程,而是VPU内部专用的进程。

  VPU可以同时处理多达4路不同格式的视频,但处理流程都是相同的。都是从创建进程开始(系统负责创建和设置一个专用进程),再到运行进程(系统运行进程需要满足的时间点要求是解码器处于空闲状态并且码流已经在内存中就绪),最后退出进程。

  如果有多个进程准备运行,每个进程将被分配一个唯一的进程索引号,该索引号基于创建的顺序进行分配。例如,当1路MPEG-4解码、1路H.264解码、1路MPGE-2解码和1路VC-1解码同时进行时,MPEG-4解码进程会被分配索引号0,而VC-1解码被分配为索引号3。

  在多进程的环境下,进程的执行没有优先级之分。在创建了所有的进程之后,CPU将启动BIT处理器执行这些进程,BIT处理器同样是利用类似时间片分割的机制来调度一个进程。

  我们跳出VPU,从整个系统的角度来看VPU的运作,下面以同时解码1路H.264码流和1路MPEG-4码流为例。

  首先,初始化VPU,包括将BIT处理器所需的固件代码装入内存,设置初始化参数,如BIT处理器配置参数,工作缓冲区基地址、BIT代码地址以及码流缓冲区控制等等。

  接着创建H.264码流和MPEG-4的解码进程,包括设置码流缓冲区的基地址和大小,帧缓冲区的基地址等。

  然后每个进程交替执行。一个标记(Wait BusyFlag)指示是否一帧码流已经完成解码,完成解码后的码流将会被发往图像处理单元(IPU)进行后处理和显示。

  最后,在解码结束后,释放相关的内存资源并销毁进程。

  

  内存控制是使用VPU的关键问题

  VPU对于外部内存有完全的访问权,它利用外部内存来加载和存储图像帧、码流以及BIT处理器的代码和数据。内存的使用量取决于视频格式本身和目标应用。例如,H.264解码使用的参考帧最多达16个,但H.263解码仅仅需要使用1个。此外,不同的格式在处理De-blocking或者叠加平滑滤波的时候也需要使用大小不同的临时内存。

  基本上,VPU使用6种不同的存储区:帧缓冲区(用于储存一帧图像)、BIT处理器代码内存区、工作缓冲区(用于BIT处理器的中间数据以及供视频解码硬件使用)、码流缓冲区(用于加载码流)、参数缓冲区(用于BIT处理器命令执行以及返回数据)、搜索RAM(用于ME模块以减少外部内存的总线负荷)。

其中,码流缓冲区的处理很关键,对于每一个进程,系统必须分配一

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top