嵌入式多媒体应用的多处理器核软件设计框架
时间:10-07
来源:互联网
点击:
建议的软件框架模型
基于数据访问模式的粒度,您可以定义四种软件框架:行处理(空域),宏块处理(空域),帧处理(时域)以及GOP处理(时域)。如果某个应用程序的数据访问模式适于这四种模型中的任何一种,就可以采用相应的软件结构,如果对同一数据流有两种或多种处理算法,还可以将这几种软件结构结合起来,实现非对称的并行处理。
在行处理模式中,只在行级有相关性——也就是说,只在两个相邻像素之间存在相关性。每行数据形成一个数据块,这样两个处理器核都独立处理,图3说明了行处理软件架构的数据流模型。图中,处理器核A控制视频输入,处理器核B控制视频输出。处理器核A和B之间的数据有独立的MDMA通道进行管理。L1存储器使用多个缓冲器,可以避免处理器核与外设DMA数据访问之间出现的线路争用状态。两个处理器核之间每行数据的同步,则通过一个计数信号量实现。在行处理模式中,采用单处理器核方式将数据直接存入L1存储器也具有优势,可以节省外部存储器带宽和DMA资源。行处理软件架构的应用实例包括色彩变换,直方图均衡化,滤波,以及采样。
图4说明了宏块数据访问模式的数据流模型,可以将交替的宏块在两个处理器核之间传送。L2存储器保持多个数据缓冲区,宏块从L2存储器传输到每个处理器核的L1存储器都有独立的MDMA通道。L1存储器也保持多个数据缓冲区,以避免在DMA和处理器核数据访问过程中产生线路争用。与行处理结构类似,该结构中处理器核A仍控制输入视频接口,处理器核B控制输出接口,计数信号量实现两个处理器核之间的同步。这种软件架构的应用实例包括边缘检测,JPEG/MPEG的编/解码算法,以及卷积编码。
在帧级处理模式中,外部存储器存储相关的数据帧。根据数据帧(宏块或行)之间相关性的粒度,系统将数据帧的子块传送到L1或L2存储器。图5说明了帧级处理软件架构数据流模型。在这种情况下,假定某个宏块在不同帧间存在相关性,系统则将数据帧的宏块传送至L1存储器。与其他软件架构类似,处理器核A仍控制输入视频接口,处理器核B则控制输出接口,计数信号量实现两个处理器核之间的同步。该软件架构已应用于运动检测算法。
在GOP级处理架构中,每个处理器核都处理多个顺序的数据帧。帧级处理结构和GOP处理结构之间的区别在于帧级处理结构是在帧间完成空域划分,而GOP级结构则通过时域(帧序列)划分实现并行处理。对于GOP数据访问模式,相关性存在于一组数据帧内部。在两组数据帧之间不存在数据相关性,因此处理器核可以相互独立地对每组数据帧进行处理。图6说明了该结构的数据流模型,与帧级处理结构类似,系统可将多帧数据块传送至处理器核的L1处理器。为了有效利用外部存储器的交叉存储组结构,系统在处理器核间均衡的划分存储区。ADSP-BF561的每一个外部存储区都支持多至四个的内部SDRAM存储器组。这一结构的应用实例有编/解码算法,如MPEG-2/4。
在实际的应用中,系统可能运用多种算法来处理数据流,而每种算法都可能用到不同的数据访问模式。这种情况下,则可以将这几种软件结构结合起来完成一个特殊的应用。为利用多核结构,可采用流水处理来实现算法的并行操作,但这种并行操作是不对称的,因为不同处理器核上可能执行的计算是不同的。然而,系统可以分配一些其它的任务到处理器核的空闲指令上,在保持灵活性的同时也达到了处理器核的工作量平衡。图7说明了行级处理和宏块处理相结合的处理结构中的数据流模型。
在某些其他应用中,多个数据块之间也会存在数据相关性,数据访问模式仍然是可预测的,但它扩展到了一个宏块或一个行的粒度之外。例如,运动窗口搜寻就可能使用几个相邻的宏块。虽然数据访问模式仍然是可预测的,但系统在算法迭代过程中要访问多个数据块。在这种情况下,您可以对软件框架进行修正,以实现有效的并行操作。例如,如果多行间存在相关性,可以通过调整行处理结构将N个连续行的帧单元传送到每个处理器核的L1存储器中。利用类似的方法,还可以对宏块处理结构进行扩展,从L2存储器中将不止一个宏块送入内部L1存储器。
软件框架分析
为了对双核处理的软件框架进行评估,AD公司利用数据流模型率先开发了一款单核应用软件,并与双核实现进行了对比。参考文献讨论了单核模型的更多细节。Blackfin独有的系统优化技术完全可以有效的使用可用带宽。 为了分析简单,公司只对基本软件架构的处理速度做了对比,而没有考虑几种组合的软件架构。
所谓周期是指为了满足NTSC(国家电视系统委员会)视频输入的实时需要,用于处理数据流的处理器核计算周期。对于一个以600MHz运行的处理器核,为了满足实时约束条件,处理每一像素可用的周期数为44核周期/像素。任何处理器核访问流数据都只需一个单内核周期,因为所有的数据访问都是对L1存储器的访问。该周期数没有包括中断引起的延迟。
如表1所示,双核处理结构将所有软件结构的处理速度都有效提高了两倍。表中还说明了L1存储器对于每个处理器核的可用容量,以及每种软件架构所需的共享存储空间。这些软件架构应用ADi公司的DD/SSL(设备驱动程序/系统服务库)实现对外设和数据的管理。
基于数据访问模式的粒度,您可以定义四种软件框架:行处理(空域),宏块处理(空域),帧处理(时域)以及GOP处理(时域)。如果某个应用程序的数据访问模式适于这四种模型中的任何一种,就可以采用相应的软件结构,如果对同一数据流有两种或多种处理算法,还可以将这几种软件结构结合起来,实现非对称的并行处理。
在行处理模式中,只在行级有相关性——也就是说,只在两个相邻像素之间存在相关性。每行数据形成一个数据块,这样两个处理器核都独立处理,图3说明了行处理软件架构的数据流模型。图中,处理器核A控制视频输入,处理器核B控制视频输出。处理器核A和B之间的数据有独立的MDMA通道进行管理。L1存储器使用多个缓冲器,可以避免处理器核与外设DMA数据访问之间出现的线路争用状态。两个处理器核之间每行数据的同步,则通过一个计数信号量实现。在行处理模式中,采用单处理器核方式将数据直接存入L1存储器也具有优势,可以节省外部存储器带宽和DMA资源。行处理软件架构的应用实例包括色彩变换,直方图均衡化,滤波,以及采样。
图4说明了宏块数据访问模式的数据流模型,可以将交替的宏块在两个处理器核之间传送。L2存储器保持多个数据缓冲区,宏块从L2存储器传输到每个处理器核的L1存储器都有独立的MDMA通道。L1存储器也保持多个数据缓冲区,以避免在DMA和处理器核数据访问过程中产生线路争用。与行处理结构类似,该结构中处理器核A仍控制输入视频接口,处理器核B控制输出接口,计数信号量实现两个处理器核之间的同步。这种软件架构的应用实例包括边缘检测,JPEG/MPEG的编/解码算法,以及卷积编码。
在帧级处理模式中,外部存储器存储相关的数据帧。根据数据帧(宏块或行)之间相关性的粒度,系统将数据帧的子块传送到L1或L2存储器。图5说明了帧级处理软件架构数据流模型。在这种情况下,假定某个宏块在不同帧间存在相关性,系统则将数据帧的宏块传送至L1存储器。与其他软件架构类似,处理器核A仍控制输入视频接口,处理器核B则控制输出接口,计数信号量实现两个处理器核之间的同步。该软件架构已应用于运动检测算法。
在GOP级处理架构中,每个处理器核都处理多个顺序的数据帧。帧级处理结构和GOP处理结构之间的区别在于帧级处理结构是在帧间完成空域划分,而GOP级结构则通过时域(帧序列)划分实现并行处理。对于GOP数据访问模式,相关性存在于一组数据帧内部。在两组数据帧之间不存在数据相关性,因此处理器核可以相互独立地对每组数据帧进行处理。图6说明了该结构的数据流模型,与帧级处理结构类似,系统可将多帧数据块传送至处理器核的L1处理器。为了有效利用外部存储器的交叉存储组结构,系统在处理器核间均衡的划分存储区。ADSP-BF561的每一个外部存储区都支持多至四个的内部SDRAM存储器组。这一结构的应用实例有编/解码算法,如MPEG-2/4。
在实际的应用中,系统可能运用多种算法来处理数据流,而每种算法都可能用到不同的数据访问模式。这种情况下,则可以将这几种软件结构结合起来完成一个特殊的应用。为利用多核结构,可采用流水处理来实现算法的并行操作,但这种并行操作是不对称的,因为不同处理器核上可能执行的计算是不同的。然而,系统可以分配一些其它的任务到处理器核的空闲指令上,在保持灵活性的同时也达到了处理器核的工作量平衡。图7说明了行级处理和宏块处理相结合的处理结构中的数据流模型。
在某些其他应用中,多个数据块之间也会存在数据相关性,数据访问模式仍然是可预测的,但它扩展到了一个宏块或一个行的粒度之外。例如,运动窗口搜寻就可能使用几个相邻的宏块。虽然数据访问模式仍然是可预测的,但系统在算法迭代过程中要访问多个数据块。在这种情况下,您可以对软件框架进行修正,以实现有效的并行操作。例如,如果多行间存在相关性,可以通过调整行处理结构将N个连续行的帧单元传送到每个处理器核的L1存储器中。利用类似的方法,还可以对宏块处理结构进行扩展,从L2存储器中将不止一个宏块送入内部L1存储器。
软件框架分析
为了对双核处理的软件框架进行评估,AD公司利用数据流模型率先开发了一款单核应用软件,并与双核实现进行了对比。参考文献讨论了单核模型的更多细节。Blackfin独有的系统优化技术完全可以有效的使用可用带宽。 为了分析简单,公司只对基本软件架构的处理速度做了对比,而没有考虑几种组合的软件架构。
所谓周期是指为了满足NTSC(国家电视系统委员会)视频输入的实时需要,用于处理数据流的处理器核计算周期。对于一个以600MHz运行的处理器核,为了满足实时约束条件,处理每一像素可用的周期数为44核周期/像素。任何处理器核访问流数据都只需一个单内核周期,因为所有的数据访问都是对L1存储器的访问。该周期数没有包括中断引起的延迟。
如表1所示,双核处理结构将所有软件结构的处理速度都有效提高了两倍。表中还说明了L1存储器对于每个处理器核的可用容量,以及每种软件架构所需的共享存储空间。这些软件架构应用ADi公司的DD/SSL(设备驱动程序/系统服务库)实现对外设和数据的管理。
- 嵌入式系统的定义与发展历史(11-15)
- 嵌入式系统亲密接触(11-22)
- 嵌入式系统设计中的USB OTG方案(02-01)
- 嵌入式线控驾驶系统开发过程中设计和测试考虑(02-02)
- 一个典型的嵌入式系统设计和实现 (02-02)
- DDR SDRAM在嵌入式系统中的应用(02-07)