嵌入式多媒体应用的多处理器核软件设计框架

时间：10-07 来源：互联网点击：

深入理解某个应用的数据访问方式，可以充分利用处理器潜在架构中的存储器和系统资源，从而开发可扩展的并行应用。

基于单核结构的嵌入式处理器越来越不能满足日益增长的嵌入式多媒体处理应用方面的要求，多核嵌入式结构已成为解决这一问题的有效途径，同时也为如何开发充分利用多核结构的应用软件带来挑战。目前，需要将编译技术和开发工具更多的结合起來，才能使多核结构的应用获得成功。而大多数并行软件都是通过手工转换方式将顺序程序转换为并行程序来实现的。由于缺乏具有多核意识的开发工具，使得软件难以进行性能评估。因此，如果没有预先有效可靠的工程规划，将不得不面对应用软件的效率低下，以及延迟产品上市时间等问题。

软件框架为多核应用软件的开发提供了一个很好的起点，可以帮助缩短开发时间。本文将详细说明嵌入式多媒体应用软件的设计框架，同时，本文的数据流模型也可扩展到许多其它应用中。该框架综合了多媒体应用软件固有的数据并行结构，还说明了如何通过有效使用潜在架构来有效管理数据流。

在设计并行软件的过程中有两大挑战：一是开发一个有效的并行算法，二是有效利用存储器，如DMA（直接存储访问）通道和互连网络等共享资源。在这过程中，顺序运行的应用程序的性能可根据可用处理器核的数目进行扩展。

通常实现应用程序的并行处理有多种方法。有些应用程序表现为固有的并行，而有的则具有相当复杂且不规则的数据存取模式。但总的来讲，科学应用程序和多媒体应用程序的并行通常易于实现，因为它们的数据存取模式比那些控制类应用程序相对容易预测。本文重点讨论针对多媒体算法的并行技术，这类算法需要很高的处理开销，且常用于嵌入式系统应用中。

多媒体应用程序中存在数据的并行级别。一组数据帧和数据帧中的一个宏块之间的并行粒度有很大差别。通常来讲，粒度越小，在共享单元——例如处理器核和DMA通道——之间所需的同步级别越高。粒度越小，并行程度也就越高，而网络通信量也越小。相反，大的粒度则要求较低的同步性，但也使网络通信量增大。因此，基于应用的不同类型和系统需求，软件框架也定义了不同的并行级别。

需要说明的是，对可扩展并行软件的开发还依赖于对互连网络、分级存储器体系，以及外设/DMA资源的有效利用。系统严格的低功耗和低成本的需求对所有这些要素都会构成约束。多核环境下的设计要求改革资源的有效利用方式。本文介绍了几种在ADI公司的Blackfin ADSP-BF561双核处理器上对资源进行有效管理的方法。

多媒体数据流分析

为了实现数据并行，需要在数据流中找到这样一个或一组数据块：能够独立处理并将结果馈送给另外的处理部件。独立的数据块可以降低同步开销并简化并行算法。要找到这种数据块，重要的是要清楚数据流模式，或者一个应用的数据存取模式。

对于大多数多媒体应用，可以将数据存取模式看成是2-D（空间域）和3-D（时间域）操作模式。在2-D模式中，独立的数据块被限制在单个数据帧内，而在3-D模式中，独立数据块可以跨越多帧。在空间域中，可以将帧划分用N个连续行和视频帧宏块组成的片段，而在时间域中，可以对数据流进一步细分到帧级或图片组（GOP）级。

采用片段或宏块的数据存取模式的算法对同步性要求很高，但需要较少的网络传输量，这是因为分级的存储器体系只需存储图像数据的一部分。对于帧或图片组类型的数据访问模式，分级的存储器体系则需要存储大量数据，但对同步性的要求则相对低得多。这是因为系统的并行粒度增大了的缘故。图1说明了多媒体应用软件中的并行级别，同时对四个级别中相关的同步性和网络通信量做了对比。

图2说明了ADSP-BF561的结构，该结构的组成中包括独立的指令和数据存储器，分别属于两个处理器核专有。该结构还包括共享的L2存储器和外部存储器，用户利用可配置的仲裁方案将所有的外围设备和DMA资源连接到任一处理器核上。ADSP-BF561 有两个DMA处理器，每个都由两组MDMA（存储器-DMA）通路组成。L2存储器和每个处理器核之间都通过独立的总线连接，而外部存储器和两个处理器核之间则由一条共享总线连接。

所有架构都利用DMA方式将数据流送入分级的存储器体系。作为另外一种选择的高速缓存并不处理任何数据。只要清楚所设计的目标应用的数据访问模式，则可以利用DMA引擎对数据进行有效的管理。而使用高速缓存需要忍受不确定的访问时间，高速缓存失配的代价，以及需要较高的外部存储器带宽。利用DMA引擎，可以在处理器核需要数据之前就将数据送入L1存储器，系统在后台执行传输操作，而不会因为没有操作数据使处理器核暂停工作。

由于每个DMA控制器上都有两组MDMA通路，系统设计时，可以将MDMA通路在处理器核上平均分配，从而可以对称地进行并行操作。

对于具有较小粒度数据访问模式的应用，可以轻松的利用对L1和L2存储器的快速访问，也可以直接将独立的数据块从外围设备传送到L1和L2存储器，而不需要通过慢速的外部存储器访问，这样可节省宝贵的外存储器带宽和MDMA资源，还可以缩短数据传输时间。

对于某些采用较高层级粒度的数据访问模式的应用，存储器就可能成为访问瓶颈，因为较小的L1和L2存储器层级不能容纳大量的数据帧。然而，大量数据帧之间虽然会出现数据关联性，但这种关联通常也仅存在于跨数据帧的较小数据块。如果能将所有关联的数据帧存放在一个较大的存储空间（外存储器）中，就可以将每一帧中的独立数据块相继送入空闲的处理器核进行处理。如果这些独立的数据块比数据帧小得多，以至于符合L1和L2存储器的容量，就可减少存储器存取延迟从而高效地处理数据。

虽然L2和外存储器都有独立的总线连接，两个处理器核仍共享这些存储器接口总线。因此，应当尽量避免利用两个处理器核同时对同一级别的存储器进行存取操作，以免造成因线路争用引起延迟。为了减少线路争用状态，程序架构应考虑目标程序代码和数据的映射，要让一个处理器核主要访问L2存储器核，而另一处理器核则主要访问外部存储器。在这种情况下，虽然处理器核完成多数外部存储器访问会出现较大的访问延迟，但总的访问延迟仍然要比存在线路争用状态下的情况小。

该结构能将所有的输入外设接口配置在一个处理器核上，所有的输出外设接口分配到另一处理器核上。BF561体系结构中有两个PPI（并行外设接口），通过PPI视频输入/输出接口，可以实现输入或输出视频帧的独立操作。

如果中断处理时间比数据流的处理时间要短，还可将所有的外设接口分配到一个处理器核上以便于编程，较短的中断处理时间不会影响两个处理器核的负载平衡。

上一篇：X25043的原理及在单片机系统中的应用
下一篇：TMS320VC55x系列DSP在线烧写方法研究

嵌入式 ADI DSP 总线相关文章：

栏目分类