嵌入式ARM多核处理器并行化方法

时间：10-27 来源：3721RD 点击：

目前，嵌入式多核处理器已经在嵌入式设备领域得到广泛运用，但嵌人式系统软件开发技术还停留在传统单核模式，并没有充分发挥多核处理器的性能。程序并行化优化目前在PC平台上有一定运用，但在嵌入式平台上还很少，另外，嵌入式多核处理器与PC平台多核处理器有很大不同，因此不能直接将PC平台的并行化优化方法应用到嵌人式平台。本文分别从任务并行和缓存优化两方面进行并行化优化的研究，探索在嵌人式多核处理器上对程序进行并行化优化的方法。

1嵌入式多核处理器结构

嵌人式多核处理器的结构包括同构（Symmetric）和异构（Asymmetric）两种。同构是指内部核的结构是相同的，这种结构目前广泛应用在PC多核处理器；而异构是指内部核的结构是不同的，这种结构常常在嵌入式领域使用，常见的是通用嵌入式处理器+DSP核。本文探究的嵌入式多核处理器采用同构结构，实现同一段代码在不同处理器上的并行执行。

图1 ARM SMP处理器结构

在目前嵌入式领域中，使用最为广泛的为ARM处理器，因此以ARM双核处理器OMAP4430作为研究对象。ARM对称多处理（Symmetric Multi-Processing，SMP）结构如图1所示，根据程序的局部性原理，每一个处理器都具有私有的内存（Local Memory），常见的是一级缓存（L1Cache）。然而，多个处理器之间又涉及到相互通信问题，因此在常见的ARM处理器中使用二级缓存（L2 Cache）来解决这一问题。基于对称多处理器结构，所有的处理器（通常为2的倍数）在硬件结构上都是相同的，在使用系统资源上也是平等的。更重要的是，由于所有的处理器都有权利去访问相同的内存空间，在共享内存区域中，任何一个进程或者线程都可以运行在任意一个处理器之上，这样就使得程序的并行化成为可能。2在嵌入式多核平台上进行并行化优化，需要考虑以下问题：

①并行化程序的性能取决于程序中串行化部分，程序性能不会随着并行线程数目的提升而不断提升；

②嵌入式多核处理器相对于PC处理器而言，其总线速度较慢，并且缓存（Cache）更小，会造成大量数据在内存（Memory）和缓存（Cache）问不断拷贝，因此在进行并行化优化的过程中，应考虑缓存友好性（Cache friendly）；

③程序并行化执行线程数目应当小于或等于物理处理器的数目，线程过多会造成线程间抢占处理器资源，致使并行化性能下降。

2 OpenMP并行化优化

2.1 0penMP工作原理简介

OpenMP是一个基于共享内存模式的跨平台多线程并行的编程接口。主线程生成一系列的子线程，并将任务映射到子线程进行执行，这些子线程并行执行，由运行时环境将线程分配给不同的物理处理器。默认情况下，各个线程独立执行并行区域的代码。可以使用work-sharingconstructs来划分任务，使每个线程执行其分配部分的代码。通过这种方式，使用OpenMP可以实现任务并行和数据并行。

图2任务并行模型

任务并行模式创建一系列独立的线程，每一个线程运行一个任务，线程之间相互独立，如图2所示。OpenMP使用编译原语session directive和task directive来实现任务分配，每个线程可以独立运行不同的代码区域，同时支持任务的嵌套和递归。一旦创建任务，该任务就可能会在线程池（其大小等于物理线程数目）中空闲的线程上执行。

数据并行也就是数据级并行，对任务中处理的数据进行分块并行执行，如图3所示。C语言中的for循环最适合使用数据并行。

图3数据并行模型

2.2快速排序算法原理

快速排序算法是一种递归分治算法，算法中最为关键的就是确定哨兵元素（pivot data）。数据序列中小于哨兵的数据将会放在哨兵元素的左侧，序列中大于哨兵的数据将会被放在哨兵元素的右侧。当完成数据扫描后，哨兵元素分成的左右两个部分就会调用快速排序算法递归进行。

快速排序算法中涉及算法的递归调用，会产生大量任务，并且这些任务相互独立，非常适合OpenMP的任务并行模式；另外，就一次快速排序搜索算法而言，哨兵元素对于左右子区间数据容量大小具有决定性作用，考虑到嵌入式平台的缓存（Cache）空间较小，需要对哨兵元素筛选算法进行优化，尽量使得划分出来的左右子区间更均衡，满足负载均衡的要求。

2.3任务并行化优化

通过对快速排序算法的分析，快速排序是一个递归调用算法，算法的执行过程中会产生大量重复函数调用，并且函数的执行相互独立。对于快速排序的一次扫描运算而言，算法首先确定哨兵元素（pivot），并对数据序列进行一次调整，然后对哨兵元素的左右区间再次进行递归调用算法。

如下所示，对任务并行化优化针对每次扫描调整后的左右子区间，将每个子区间的运算抽象为一个任务，并通过OpenMP中的任务并行化原语#pragma omp task实现任务的并行化执行，从而实现了快速排序的任务并行化优化。

任务空间中的数据大小取决于哨兵元素，因此，算法选取的划分算法（Partition Algorithm）应尽量将数据序列的划分均衡化，本文使用简单划分算法和三元中值法（Median-of-Three Method）进行测试。

2.4缓存优化

缓存优化（Cache friendly）的目标是减少数据在内存和缓存之间的拷贝。对于220个整型数据而言，数据大小为4 MB，本文的测试平台（）MAP4430的二级缓存为1 MB，需要将数据划分为4个部分。

如下所示，算法将4部分数据分为4个快速排序任务，4部分任务并行执行，完成后每部分数据序列排序完成，需要将4部分数据进行合并形成完成数据序列，因此在并行任务结束后，需要对数据进行归并排序。

上一篇：电梯控制系统的实现，附软硬件架构图
下一篇：触摸式电磁炉整体方案，有详细的硬件原理和器件选型

多核处理器负载均衡嵌入式 ARM DSP核相关文章：

栏目分类