ARM平台NEON指令的编译和优化
NEON向量化
基于ARM v7-A架构的ARM Cortex-A系列处理器(Cortex-A5, Cortex-A7, Cortex-A8, Cortex-A9, Cortex-A15)都可以选用NEON多媒体处理器加速程序运行,NEON是一种SIMD(Single Instruction Multiple Data)架构的协处理器,ARM的NEON处理器还可选配置成向量浮点VFPv3(Vector Floating-Point)指令集处理器。
常用的编译器选项配置
自动向量化选项
armcc编译器使用--vectorize选项来使能向量化编译,一般选择更高的优化等级如-O2或者-O3就能使能--vectorize选项。
gcc编译器的向量化选项-ftree-vectorize来使能向量化选项,使用-O3会自动使能-ftree-vectorize选项。
选择处理器类型
armcc编译器使--cpu 7-A或者--cpu Cortex-A8来指定指令集架构和CPU类型。
gcc编译器的处理器选项-mfpu=neon和-mcpu来指定cpu类型。如-mcpu=cortex-a5
选择NEON和VFP类型
gcc选择用-mfpu=vfpv3-fp16来指定为vfp协处理,而-mfpu=neon-vfpv4等就能指定为NEON+VFP结构。
选择浮点处理器和ABI接口类型
-mfloat-abi=soft使用软件浮点库,不是用VFP或者NEON指令;-mfloat-abi=softfp使用软件浮点的调用规则,而可以使用VFP和NEON指令,编译的目标代码和软件浮点库链接使用;
-mfloat-abi=hard使用VFP和NEON指令,并且改变ABI调用规则来产生更有效率的代码,如用vfp寄存器来进行浮点数据的参数传递,从而减少NEON寄存器和ARM寄存器的拷贝。
常用的CPU类型编译器选项
CPU类型 | CPU类型选项 | FP选项 | FP + SIMD选项 | 备注 |
Cortex-A5 | -mcpu=cortex-a5 | -mfpu=vfpv3-fp16 -mfpu=vfpv3-d16-fp16 | -mfpu=neon-fp16 | -d16表明只有前16个浮点寄存器可用 |
Cortex-A7 | -mcpu=cortex-a7 | -mfpu=vfpv4 -mfpu=vfpv4-d16 | -mfpu=neon-vfpv4 | -fp16表明支持16bit半精度浮点操作 |
Cortex-A8 | -mcpu=cortex-a8 | -mfpu=vfpv3 | -mfpu=neon | |
Cortex-A9 | -mcpu=cortex-a9 | -mfpu=vfpv3-fp16 -mfpu=vfpv3-d16-fp16 | -mfpu=neon-fp16 | |
Cortex-A15 | -mcpu=cortex-a15 | -mfpu=vfpv4 | -mfpu=neon-vfpv4 |
常用的gcc组合编译器选项
Cortex-A15 with a NEON unit
arm-gcc -O3 -mcpu=cortex-a15 -mfpu=neon-vfpv4 -mfloat-abi=hard -ffast-math -omyprog.exe myprog.c
Cortex-A9 with a NEON unit
arm-gcc -O3 -mcpu=cortex-a9 -mfpu=neon-vfpv3-fp16 -mfloat-abi=hard -ffast-math -omyprog.exe myprog.c
Cortex-A7 without a NEON unit
arm-gcc -O3 -mcpu=cortex-a7 -mfpu=vfpv4-d16 -mfloat-abi=softfp -ffast-math -omyprog2.exe myprog2.c
Cortex-A8 without a NEON unit
arm-gcc -O3 -mcpu=cortex-a8 -mfloat-abi=soft -c -o myfile.o myfile.c
NEON汇编和EABI程序调用规范
GNU assembler (gas) and ARM Compiler toolchain assembler (armasm)都支持NEON指令的汇编。但必须遵循ARM Embedded Application Binary Interface (EABI)EABI的规范,即NEON寄存器的S0-S15 (D0-D7, Q0-Q3)用于传递参数和返回值,被调用函数内可以直接使用,不用保存;D16-D31 (Q8-Q15)则有调用函数来保存,被调用函数内可以不保存的随意使用;而S16-S31 (D8-D15, Q4-Q7)则必须由被调用函数内部保存。对于调用传参规范则有,对于软件浮点,参数有R0~R3和堆栈stack传递,而硬件浮点,可以通过NEON寄存器来传递参数。
NEON硬件检测和使能
编译时指定NEON单元是否存在
ARM编译器(armcc)从4.0之后就支持在某些处理器和FPU的选项中预定义宏__ARM_NEON__, armasm的宏TARGET_FEATURE_NEON.
运行时指定检测NEON单元
OS内可以检测NEON单元是否存在,如Linux下cat /proc/cpuinfo看是否包含NEON或者VFP,如Tegra2 (双核 Cortex-A9 带 FPU), cat /proc/cpuinfo:
…
Features : swp half thumb fastmult vfp edsp thumbee vfpv3 vfpv3d16
…
四核 Cortex-A9 带NEON单元
Features : swp half thumb fastmult vfp edsp thumbee neon vfpv3
…
另外可以查看/proc/self/auxv,这里会包含二进制格式的hwcap,可以通过AT_HWCAP来搜索到。HWCAP_NEON bit (4096).另外如Ubuntu的发布在路径/lib/neon/vfp下包含lib的NEON优化版本。
Bare-metal模
ARM平台NEON指令编译和优 相关文章:
- Windows CE 进程、线程和内存管理(11-09)
- RedHatLinux新手入门教程(5)(11-12)
- uClinux介绍(11-09)
- openwebmailV1.60安装教学(11-12)
- Linux嵌入式系统开发平台选型探讨(11-09)
- Windows CE 进程、线程和内存管理(二)(11-09)