嵌入式多媒体应用的多核编程框架
基于单核结构的嵌入式处理器越来越难以满足日益增长的嵌入式多媒体应用的处理需求,多核嵌入式结构已成为解决这一问题的有效途径,同时也为如何充分开发利用多核结构的应用软件带来挑战。目前的编译技术和开发工具需要更精密,才能使多核结构的应用获得成功。大多数并行软件都是通过手工转换方式将顺序程序转换为并行程序来实现的,由于缺乏具有多核意识的开发工具,使得软件难以进行性能评估。因此,如果没有预先有效可靠的工程规划,将不得不面对应用软件效率低下以及延迟产品上市时间等问题。
软件框架为多核应用软件的开发提供了一个更好的起点,可以帮助缩短开发时间。本文将详细说明嵌入式多媒体应用软件的设计框架,同时,本文的数据流模型也可扩展到许多其它应用中。该框架综合了多媒体应用软件固有的数据并行结构,并说明了如何通过使用底层架构来有效管理数据流。
在设计并行软件的过程中有两大挑战:一是开发有效的并行算法,二是有效地利用存储器、DMA(直接存储器访问)通道和互连网络等共享资源。在该过程中,顺序运行的应用程序的性能可根据可用处理器核的数目进行扩展。
实现应用程序的并行处理常常有多种方法。有些应用程序表现出固有的并行特性,而其它的则具有极其复杂且不规则的数据存取模式。但总的来讲,科学计算类的应用程序和多媒体应用程序的并行化通常易于实现,因为它们的数据存取模式比那些控制类应用程序相对容易预测。本文重点讨论针对多媒体算法的并行技术,这类算法需要很高的处理能力,并且更适合嵌入式系统应用。
多媒体应用程序中存在数据的并行级别。一组数据帧与数据帧中的一个宏块之间的并行粒度有很大差别。通常来讲,粒度越小,共享单元(如处理器核和DMA通道等)之间所需的同步级别越高。粒度越小,并行程度就越高,网络通信量越小;粒度越大,同步要求就越低,但网络通信量会增大。因此,基于应用的不同类型和系统需求,软件框架也定义了不同的并行级别。
需要说明的是,可扩展并行软件的开发还依赖于对互连网络、分级存储器体系以及外设/DMA资源的有效利用。系统严格的低功耗和低成本要求对所有这些要素都会构成限制。在多核环境下编程时,有效利用这些资源需要进行创新。本文提出了一些在ADI公司的Blackfin ADSP-BF561双核处理器上有效管理资源的构想。
多媒体数据流分析
为了实现数据并行,需要在数据流中找到这样一个或一组数据块:可以独立处理并将其“喂”给一个处理元件。独立的数据块可以降低同步开销并简化并行算法。要找到这种数据,必须弄清应用的数据流模型,或者说“数据存取模式”。
对于大多数多媒体应用,可以将数据存取模式看成是2D(空间域)和3D(时间域)操作模式。在2D模式中,独立的数据块被限制在单个数据帧内,而在3D模式中,独立数据块可以横跨多帧。在空间域中,可以将帧划分为由N个连续行和视频帧宏块组成的片段,而在时间域中,可以对数据流进一步细分到帧级或图片组(GOP)级。
采用片段或宏块数据存取模式的算法对同步性要求较高,但网络传输量较少,这是因为分级存储器体系只需存储图像数据的一部分。对于帧或图片组类型的数据存取模式,分级存储器体系则需要存储大量数据,但对同步性的要求则相对低得多,这是因为系统的并行粒度更大。图1说明了多媒体应用软件中的并行级别,同时显示了四个级别的相对同步要求和网络通信量。
图1 多媒体应用展示了不同的数据并行级别,这些级别对应不同的同步要求和网络通信量。
多核结构分析
图2显示了ADSP-BF561的结构,它包括独立的指令和数据存储器,分别属于两个处理器核专有,此外还包括共享的L2存储器和外部存储器。用户可以利用可配置的仲裁方案将所有外围设备和DMA资源连接到任一处理器核。该处理器有两个DMA控制器,每个DMA控制器由两组MDMA(存储器DMA)通道组成。L2存储器与每个处理器核之间通过独立的总线连接,外部存储器与两个处理器核之间则由一条共享总线连接。
图2 ADSP-BF561的结构包括独立的指令和数据存储器,分别属于两个处理器核专有,此外还包括共享的L2存储器和外部存储器。
所有框架都利用DMA方式将数据流送入分级存储器体系。另一种选择是高速缓存,它不管理任何数据。如果清楚目标应用的数据存取模式,就可以利用DMA引擎对数据进行有效的管理。而使用高速缓存需要忍受不确定的访问时间、高速缓存未命中的代价,以及需要较高的外部存储器带宽。利用DMA引擎,可以在处理器核请求数据之前就将数据送入L1存储器,系统在后
- CAN通信卡的Linux设备驱动程序设计实现(04-25)
- 基于嵌入式的多媒体应用的多处理器核软件设计框架(04-08)
- 基于RF5框架的视频处理系统的研究(09-22)
- USB驱动程序框架搭建(12-15)
- 3.4.2内核下的I2C驱动框架解析(11-21)
- Android 框架简介(09-12)