微波EDA网,见证研发工程师的成长!
首页 > 应用设计 > 消费类电子 > 针对H.264的编译码设计以及各种硬件加速架构

针对H.264的编译码设计以及各种硬件加速架构

时间:11-18 来源:中电网 点击:

辅助处理器

辅助处理器以可程序化的方式支持不同的视讯标准,通常执行译码和编码处理。基于视讯辅助功能的处理器架构规模,通常比基于硬件加速功能的处理器,芯片面积较大(40~50万个逻辑闸用于视讯辅助处理器,视不同IC厂商的设计而有不同),但是,视讯辅助处理器在支持多视讯标准时有较大的应变能力。除了仅针对视讯应用的加速以外,以DSP为基本架构的多媒体加速方式也是主流之一,许多公司在DSP架构方面也下了不少的功夫。

图说:TI的OMAP产品便是结合了通用处理器、DSP与特定多媒体加速单元的设计典范。(www.TI.com)

混合模型:由专用的CPU和附加的IP模块一起构成视讯辅助处理器,实现视讯加速功能。此类架构以ARC公司的视讯处理子系统较为优秀。以其最新的Vraptor架构为例,该架构采用了特殊多核心方案,其中有多个高性能处理器被连接到多个SIMD处理器和多个DMA引擎,还采用了针对不同应用领域的加速器,这些相互连结的设计,均采用了低耗电、低延迟的通讯信道和Local宽带数据总线。

ARC公司的多媒体加速子系统可与包含ARM或MIPS等不同的嵌入式处理器进行连结,并设计于单一SoC上,但这并不是基于效能考虑,而是基于软件开发的习惯与旧有软件的兼容性,基本上,该子系统原本就包含了1个ARC700的可配置处理器,在性能表现上并不逊于其它嵌入式应用处理器。

图说:ARC的VRaptor体系在多媒体应用方面的效能极佳,且兼具弹性。(www.ARC.com)

VRaptor架构利用以128位数据向量执行的单一指令多数据流(SIMD)媒体处理器,来扩展ARC700 CPU运算功能,利用1个专用的向量缓存器文件,可分别以4个32位单元、8个16位单元或16个8位单元来进行配置,弹性相当高。SIMD处理器通常采用与 ARC700 CPU相同的频率频率,并具有两种工作方式:一种是只简单地扩展ARC700 CPU系列管线的紧密结合方式;另一种为松散耦合方式。在松散耦合方式中,SIMD处理器与ARC700 CPU架构平行,彼此有独立的内存和处理单元结构,不会因为特定内存或处理单元被占用而影响到整体效能。

VRaptor架构包含了2种多媒体处理子系统,其一是针对多标准视讯的译码方案,另外1种则是针对音效应用,该架构除了可专心扮演子系统的角色,进行特殊多媒体加速处理以外,也能摇身一变成为主角,进行一般通用运算,算是该架构的最大特点之一。

专用视讯核心:1种多标准视讯引擎,此方案较混合模型架构的执行效率为高,不过视讯核心可能仅具备简单通用运算能力,或根本没有任何CPU的功能,因而只能进行视讯处理。

采用视讯辅助处理器的主要优点为:

1. 支持多标准-支持多种视讯编译码格式而无需硬件扩展。

2. 可升级性-同一平台可支持不同的分辨率和讯框率。

3. 规模-该方案的规模通常介于硬件加速和专用处理器之间。

4. 缺陷修复-与硬件线路芯片不同,该方案可透过软件升级来隔离缺陷(不需要重新投片)。

通用处理器(RISC/DSP架构)

若以寻常的通用处理器(ARM/MIPS)来看,即便加入了针对多媒体处理的加速指令,其实也难肩负起全速的H.264 BaseLine Profile译码,因此这两款处理器也都先后加入了DSP处理单元,以改善多媒体串流编译码的效能表现。虽然这些DSP单元在效能方面仍要稍逊于TI或其它公司的DSP单元,不过其优点在于整合性高,不需要另外支付授权费用,软件开发也可以一脉相承,这是其最大优势。

图说:此类独立的DSP芯片将逐渐被整合于SoC的嵌入式DSP所取代。(www.TI.com)

由于DSP逐渐成为未来串流媒体编译码加速的主角之一,在SoC设计时,便要考虑到各种应用层面与效能需求。首先,在各种不同的编译码器和不断变革的标准要求下,解决方案必须是可程序化的;其次,大部分的编译码器是运算密集型,而DSP本身便是设计用于高效能数学运算。另外,功耗和成本是行动串流传输中的重要考虑,一般而言,DSP核心也能在进行多媒体编译码时,提供比通用核心更高的效能以及更低的功耗表现。

典型的音效/视讯串流多媒体系统,通常同时使用内部存储器和外部内存。内部存储器是以DSP核心频率速度运行的快速内存;外部内存比较慢,但价格也较便宜。编译码指令储存于外部内存,但下载到内部存储器中执行。由于视讯串流数据量庞大,除非必须,通常置于芯片之外,而音效串流数据则可视芯片需求内外任意放置,还可以根据需要,将一些IP模块安置在SoC系统总线上。

目前的趋势是每2年就会发布新的编解碼标准,每个新标准会需要更多的DSP周期。因此,选择可依兼容性发展蓝图来演变的DSP平台非常重要,这样通过系统升级而不需要重新设计,就可以满足未来的系统要求。

针对嵌入式DSP的设计,我们可以考虑以下4种基本设计配置:第1种,设计包含1个微控制器和1个DSP(MCU+DSP);第2种,设计包括1个微控制器和1个DSP,但是DSP同时也控制1个视讯编码/译码硬件模块(MCU+《DSP+VHW》);第3种,设计使用1个微控制器,DSP和视讯编码/译码硬件模块(MCU+DSP+ VHW),在该设计中微控制器控制DSP和视讯硬件模块;最后1种,设计包含1个微控制器,1个视讯编码/译码硬件模块,1个音效编码/译码硬件模块(MCU +VHW+AHW)。

1.MCU+DSP:微控制器和DSP用于低视讯分辨率(CIF),软件可升级,支持多种音、视讯标准的系统。DSP用于音效译码,视讯译码和音/视讯同步。虽然性能有限,但系统非常灵活,此平台可轻松实现多种音效和视讯译码格式支持。

2.MCU+[DSP+VHW]:该视讯硬件模块用于高分辨率视讯编/译码。DSP管理音效编/译码,也负责音/视讯同步,同时也能用于子母画面或其它视讯迭加功能。该系统的1个优势是音效/视讯子系统可设计为1个标准的多媒体编/译码器,可轻松植入系统而不会增加太多的复杂性。DSP是系统多媒体部分的控制器,由于多媒体编/译码系统与微控制系统的连接很松散,因此能够被轻松整合进众多现有微控制器系统中,从而使这个方案具备相当吸引力。该编译码系统可被当作1个具有标准Local总线端子的ASSP产品。

3.MCU+DSP+VHW:在该配置中,DSP用于音效编/译码,而微控制器用于实现音/视讯同步。这需要更复杂的微控制器设计,但可采用与MCU+[DSP+VHW]系统相比之功耗、成本都更低的DSP。由于微控制器必须协调DSP和VHW,同时还要执行其它的控制任务以及所有的协调操作,因此该方案在设计实现上困难很多。

该配置的1个变种方案,是由DSP执行视讯译码、音效编/译码,而视讯编码仍然由硬件执行,这需要1个性能强大的DSP,但会使系统灵活性更强,并支持多种视讯译码标准。

4.MCU+VHW+AHW:在此配置中,微控制器执行除音效、视讯编/译码外的所有任务,音/视讯同步也由微控制器执行。该解决方案除音效子系统灵活性较差(仅能执行原始设计中的音效编译码器而不能软件升级)外,和MC+DSP+VHW很相似。其好处在于它能与特定应用配合,与各种前述方案相比具有最佳的功耗表现。

在上述各类设计中,微控制器负责典型的嵌入式控制任务:包括用户控制连接(如游戏杆、按键控制),USB/UART/以太网络驱动和协议层 (如TCP/IP, HTTP)等。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top