针对H.264的编译码设计以及各种硬件加速架构

时间：11-18 来源：中电网点击：

辅助处理器

辅助处理器以可程序化的方式支持不同的视讯标准，通常执行译码和编码处理。基于视讯辅助功能的处理器架构规模，通常比基于硬件加速功能的处理器，芯片面积较大(40~50万个逻辑闸用于视讯辅助处理器，视不同IC厂商的设计而有不同)，但是，视讯辅助处理器在支持多视讯标准时有较大的应变能力。除了仅针对视讯应用的加速以外，以DSP为基本架构的多媒体加速方式也是主流之一，许多公司在DSP架构方面也下了不少的功夫。

图说：TI的OMAP产品便是结合了通用处理器、DSP与特定多媒体加速单元的设计典范。（www.TI.com）

混合模型：由专用的CPU和附加的IP模块一起构成视讯辅助处理器，实现视讯加速功能。此类架构以ARC公司的视讯处理子系统较为优秀。以其最新的Vraptor架构为例，该架构采用了特殊多核心方案，其中有多个高性能处理器被连接到多个SIMD处理器和多个DMA引擎，还采用了针对不同应用领域的加速器，这些相互连结的设计，均采用了低耗电、低延迟的通讯信道和Local宽带数据总线。

ARC公司的多媒体加速子系统可与包含ARM或MIPS等不同的嵌入式处理器进行连结，并设计于单一SoC上，但这并不是基于效能考虑，而是基于软件开发的习惯与旧有软件的兼容性，基本上，该子系统原本就包含了1个ARC700的可配置处理器，在性能表现上并不逊于其它嵌入式应用处理器。

图说：ARC的VRaptor体系在多媒体应用方面的效能极佳，且兼具弹性。（www.ARC.com）

VRaptor架构利用以128位数据向量执行的单一指令多数据流(SIMD)媒体处理器，来扩展ARC700 CPU运算功能，利用1个专用的向量缓存器文件，可分别以4个32位单元、8个16位单元或16个8位单元来进行配置，弹性相当高。SIMD处理器通常采用与 ARC700 CPU相同的频率频率，并具有两种工作方式：一种是只简单地扩展ARC700 CPU系列管线的紧密结合方式；另一种为松散耦合方式。在松散耦合方式中，SIMD处理器与ARC700 CPU架构平行，彼此有独立的内存和处理单元结构，不会因为特定内存或处理单元被占用而影响到整体效能。

VRaptor架构包含了2种多媒体处理子系统，其一是针对多标准视讯的译码方案，另外1种则是针对音效应用，该架构除了可专心扮演子系统的角色，进行特殊多媒体加速处理以外，也能摇身一变成为主角，进行一般通用运算，算是该架构的最大特点之一。

专用视讯核心：1种多标准视讯引擎，此方案较混合模型架构的执行效率为高，不过视讯核心可能仅具备简单通用运算能力，或根本没有任何CPU的功能，因而只能进行视讯处理。

采用视讯辅助处理器的主要优点为：

1. 支持多标准－支持多种视讯编译码格式而无需硬件扩展。

2. 可升级性－同一平台可支持不同的分辨率和讯框率。

3. 规模－该方案的规模通常介于硬件加速和专用处理器之间。

4. 缺陷修复－与硬件线路芯片不同，该方案可透过软件升级来隔离缺陷(不需要重新投片)。

通用处理器(RISC/DSP架构)

若以寻常的通用处理器(ARM/MIPS)来看，即便加入了针对多媒体处理的加速指令，其实也难肩负起全速的H.264 BaseLine Profile译码，因此这两款处理器也都先后加入了DSP处理单元，以改善多媒体串流编译码的效能表现。虽然这些DSP单元在效能方面仍要稍逊于TI或其它公司的DSP单元，不过其优点在于整合性高，不需要另外支付授权费用，软件开发也可以一脉相承，这是其最大优势。

图说：此类独立的DSP芯片将逐渐被整合于SoC的嵌入式DSP所取代。（www.TI.com）

由于DSP逐渐成为未来串流媒体编译码加速的主角之一，在SoC设计时，便要考虑到各种应用层面与效能需求。首先，在各种不同的编译码器和不断变革的标准要求下，解决方案必须是可程序化的；其次，大部分的编译码器是运算密集型，而DSP本身便是设计用于高效能数学运算。另外，功耗和成本是行动串流传输中的重要考虑，一般而言，DSP核心也能在进行多媒体编译码时，提供比通用核心更高的效能以及更低的功耗表现。

典型的音效/视讯串流多媒体系统，通常同时使用内部存储器和外部内存。内部存储器是以DSP核心频率速度运行的快速内存；外部内存比较慢，但价格也较便宜。编译码指令储存于外部内存，但下载到内部存储器中执行。由于视讯串流数据量庞大，除非必须，通常置于芯片之外，而音效串流数据则可视芯片需求内外任意放置，还可以根据需要，将一些IP模块安置在SoC系统总线上。

目前的趋势是每2年就会发布新的编解碼标准，每个新标准会需要更多的DSP周期。因此，选择可依兼容性发展蓝图来演变的DSP平台非常重要，这样通过系统升级而不需要重新设计，就可以满足未来的系统要求。

针对嵌入式DSP的设计，我们可以考虑以下4种基本设计配置：第1种，设计包含1个微控制器和1个DSP(MCU+DSP)；第2种，设计包括1个微控制器和1个DSP，但是DSP同时也控制1个视讯编码/译码硬件模块(MCU+《DSP+VHW》)；第3种，设计使用1个微控制器，DSP和视讯编码/译码硬件模块(MCU+DSP+ VHW)，在该设计中微控制器控制DSP和视讯硬件模块；最后1种，设计包含1个微控制器，1个视讯编码/译码硬件模块，1个音效编码/译码硬件模块(MCU +VHW+AHW)。

1.MCU+DSP：微控制器和DSP用于低视讯分辨率(CIF)，软件可升级，支持多种音、视讯标准的系统。DSP用于音效译码，视讯译码和音/视讯同步。虽然性能有限，但系统非常灵活，此平台可轻松实现多种音效和视讯译码格式支持。

2.MCU+[DSP+VHW]：该视讯硬件模块用于高分辨率视讯编/译码。DSP管理音效编/译码，也负责音/视讯同步，同时也能用于子母画面或其它视讯迭加功能。该系统的1个优势是音效/视讯子系统可设计为1个标准的多媒体编/译码器，可轻松植入系统而不会增加太多的复杂性。DSP是系统多媒体部分的控制器，由于多媒体编/译码系统与微控制系统的连接很松散，因此能够被轻松整合进众多现有微控制器系统中，从而使这个方案具备相当吸引力。该编译码系统可被当作1个具有标准Local总线端子的ASSP产品。

3.MCU+DSP+VHW：在该配置中，DSP用于音效编/译码，而微控制器用于实现音/视讯同步。这需要更复杂的微控制器设计，但可采用与MCU+[DSP+VHW]系统相比之功耗、成本都更低的DSP。由于微控制器必须协调DSP和VHW，同时还要执行其它的控制任务以及所有的协调操作，因此该方案在设计实现上困难很多。

该配置的1个变种方案，是由DSP执行视讯译码、音效编/译码，而视讯编码仍然由硬件执行，这需要1个性能强大的DSP，但会使系统灵活性更强，并支持多种视讯译码标准。

4.MCU+VHW+AHW：在此配置中，微控制器执行除音效、视讯编/译码外的所有任务，音/视讯同步也由微控制器执行。该解决方案除音效子系统灵活性较差(仅能执行原始设计中的音效编译码器而不能软件升级)外，和MC+DSP+VHW很相似。其好处在于它能与特定应用配合，与各种前述方案相比具有最佳的功耗表现。

在上述各类设计中，微控制器负责典型的嵌入式控制任务：包括用户控制连接(如游戏杆、按键控制)，USB/UART/以太网络驱动和协议层 (如TCP/IP, HTTP)等。

上一篇：DTV发射机75 W射频功放模块的设计与实现
下一篇：IC设计中的低功耗解决方案

H 264 SoC 硬件加速相关文章：

栏目分类