嵌入式多媒体多核应用软件设计框架

时间：11-30 来源：3721RD 点击：

软件框架的建议模型

基于数据存取模式的粒度，可以定义四种软件框架：行处理（空间域）、宏块处理（空间域）、帧处理（时间域）以及GOP处理（时间域）。如果某个应用程序的数据存取模式适于这四种模型中的任何一种，就可以采用相应的框架。如果一个数据流有两种或更多的处理算法，还可以将多种框架结合起来，实现非对称的并行处理。

在行处理模式中，关联性只存在于行级，也就是说，只存在于相邻像素之间。每行数据形成一个数据块，各处理器核都可以独立处理。

图3显示了行处理框架的数据流模型。处理器核A处理视频输入，处理器核B处理视频输出。核A和B之间的数据由独立的MDMA通道组进行管理。L1存储器使用多个缓神器，可以避免处理器核与外设DMA访问总线的冲突。两个处理器核之间每行数据的同步通过计数信号量实现。在这种框架中，采用单处理器核方式将数据直接存入L1存储器也具有优势，可以节省外部存储器带宽和DMA资源。这种框架的应用实例包括色彩变换、直方图均衡化、滤波和采样。

图3 行处理框架的数据流模型。处理器核A处理视频输入，处理器核B处理视频输出。

图4显示了宏块数据访问模式的数据流模型，可以在两个处理器核之间交替传送宏块。L2存储器具有多个片段缓冲器，独立的MDMA通道将宏块从每个处理器核的L2存储器传输到L1存储器。L1存储器也有多个缓神器，用以避免DMA与处理器核访问总线的冲突。与行处理框架类似，该框架中处理器核A控制输入视频接口，处理器核B控制输出接口，计数信号量实现两个处理器核之间的同步。这种框架的应用实例包括边缘检测、
JPEG/MPEG编码/解码算法和卷积编码。

图4 在双核宏块数据访问模式中，L2存储器具有多个片段缓冲器，独立的MDMA通道将宏块从每个处理器核的L2存储器传输到L1存储器。

在帧级处理模式中，外部存储器存储关联帧。根据数据帧（宏块或行）之间的关联性粒度，系统将数据帧的子块传送到L1或L2存储器。图5显示了帧级处理框架的数据流模型。在这种情况下，假定某个宏块在多个帧之间存在关联，则系统将数据帧的宏块传送至L1存储器。与其它框架类似，该框架中处理器核A控制输入视频接口，处理器核B控制输出接口，通过计数信号量实现两个处理器核之间的同步。这种框架的应用实例包括运动检测算法。

图5 在帧级处理流程中，外部的存储器存储独立帧

在GOP级处理模式中，每个处理器核处理多个相继的数据帧。帧级处理框架与GOP级处理框架之间的区别在于，前者是在帧内完成空间划分，后者则通过时间划分（帧序列）实现并行处理。对于GOP数据访问模式，关联性存在于一组数据帧内部，两组帧之间数据不存在关联性。因此，处理器核可以独立处理每一组帧。图6显示了这种框架的数据流。与帧级处理框架类似，系统可以将帧数据块传送至处理器核的L1存储器。为了有效利用外部存储器的交错存储库结构，系统在处理器核间均衡地分配存储库。ADSP-BF561的每一个外部存储库都支持多达四个内部SDRAM存储库。这种框架的应用实例包括MPEG-2/4等编码/解码算法。

图6 在GOP级数据访问模式中，关联性存在于一组数据帧内部，两组帧之间数据不存在关联性。

在实际应用中，系统可能使用多种算法处理数据流，而每种算法都可能用到不同的数据存取模式。这种情况下，可以针对特殊应用将几种框架结合起来使用。为利用多核结构，可以采用流水线处理来实现并行操作，但这种并行操作是不对称的，因为不同处理器核上可能执行不同的计算。然而，系统可以分配一些其它的任务到处理器核的空闲指令上，在保持灵活性的同时达到处理器核的工作量平衡。图7显示了行级处理和宏块处理相结合的框架的数据流模型。

图7 行级处理和宏块处理相结合的框架的数据流模型

在某些其他应用中，多个数据块之间也会存在数据关联性，数据存取模式仍然是可预测的，但它扩展到了一个宏块或一行的粒度之外。例如，运动窗口搜索就可能使用几个相邻的宏块。数据存取模式仍然是可预测的，但系统在算法的多次迭代之间要访问多个数据块。这种情况下，可以对软件框架进行修正，以实现有效的并行操作。例如，如果多行间存在关联，可以通过调整行处理框架，将N个连续行的帧片段传送到每个处理器核的L1存储器。利用类似的方法，还可以对宏块处理框架进行扩展，以便将多个宏块从L2存储器送入内部L1存储器。
软件框架分析

为了对双核处理的软件框架进行评估，ADI公司利用数据流模型率先开发了一款单核应用软件，然后与双核方案进行对比。Blackfin独有的系统优化技术也能有效地利用可用带宽。为了简化分析，ADI公司只比较了基本框架的处理速度，而没有考虑几种架构的组合。

所谓周期，是指为了满足NTSC（美国国家电视系统委员会）视频输入的实时约束条件而用于处理数据流的处理器核计算周期。对于一个以600MHz速度运行的处理器核，为了满足实时约束条件，处理每一像素可用的总周期数为44周期/像素。任何对数据流的处理器核访问都只需要一个单核周期，因为所有数据访问都是对L1存储器的访问。所示的周期数不包括中断延迟。

如表1所示，双核框架将所有框架的处理速度有效提高了两倍。表中还说明了每个处理器核的L1存储器使用量，以及各种框架需要的共享存储器空间。这些框架使用ADI公司的DD/SSL（器件驱动/系统服务库）实现对外设和数据的管理。

表1：框架说明

上一篇：非接触CPU智能卡技术
下一篇：DSP系统电磁兼容的设计

栏目分类