微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 嵌入式设计 > 嵌入式平台ARM的C代码优化方法

嵌入式平台ARM的C代码优化方法

时间:11-10 来源:互联网 点击:
本文介绍了ARM平台的C代码优化方法,从数据类型选择、数据结构组织、局部变量选择、函数inline内联、编译器选项、循环展开、条件执行、数据操作的转化、存储器的优化、代码尺寸的优化等角度给出常用的优化方法。

C数据类型

C语言的程序优化与编译器和硬件系统都有关系,设置某些编译器选项是最直接最简单的优化方式。在默认的情况下,armcc是全部优化功能有效的,而GNU编译器的默认状态下优化都是关闭的。ARM C编译器中定义的char类型是8位无符号的,有别于一般流行的编译器默认的char是8位有符号的。所以循环中用char变量和条件 i ≥ 0时,就会出现死循环。为此,可以用fsigned - char(for gcc)或者-zc(for armcc)把char改成signed。

其他的变量类型如下:

char 无符号8位字节数据

short 有符号16位半字节数据

int 有符号32位字数据

long 有符号32位字数据

long long 有符号64位双字数据

局部变量尽可能采用32位数据类型

ARM 指令集支持有符号/ 无符号的8 位、16 位、32位整型及浮点型变量。恰当的使用变量的类型,不仅可以节省代码,并且可以提高代码运行效率。应该尽可能地避免使用char、short 型的ARM局部变量,因为操作8 位/16 位局部变量往往比操作3 2 位变量需要更多指令。 大多数ARM数据处理操作都是32位的,局部变量应尽可能使用32位的数据类型(int或long)就算处理8位或者16位的数值,也应避免用char和short以求边界对齐,除非是利用char或者short的数据一出归零特性(如255+1=0,多用于模运算)。否则,编译器将要处理大于short和char取值范围的情况而添加代码。另外对于表达式的处理也要格外小心选择数据类型,请对比下列3 个函数和它们的汇编代码。

Int wordinc(inta) wordinc

{ ADD a1,a1,#1

return a + 1; MOV pc,lr

}

shortinc

short shortinc(shorta) ADD a1,a1,#1

{ MOV a1,a1,LSL #16

return a + 1; MOV a1,a1,ASR #16ARM

} MOV pc,lr

Char charinc(chara) charinc

{ ADD a1,a1,#1

return a + 1; AND a1,a1,#&ff

} MOV pc,lr

可以看出, 操作3 2 位变量所需的指令要少于操作8位及16 位变量。另外对于16-bit数据的加载 用LDRH指令的话,不能使用桶型移位器,所以只能先进行偏移量的以为操作,然后再寻址(能用指针递增寻址就不用数组下表递增寻址a=data[i++]不如a=*(data++)),也会造成不佳的性能。但是用指针代替数据操作就可以规避这个问题。在全局变量声明时,需要考虑最佳的存储器布局,使得各种类型的变量能以32位的空间位基准对齐,从而减少不必要的存储空间浪费,提高运行效率。

关于函数参数类型

函数参数和返回值应尽量使用int类型。ARM中的函数前4个整型参数通过寄存器r0、r1、r2、r3来传递,随后的整型参数通过堆栈来传递。因而尽量限制函数参数,不要超过四个,也可以把相关的参数组织在结构体传递。 对于比较小的被调用函数和调用函数可以放在同一个源文件中,并且限定为static调用,编译器能进行优化。用_inline内联性能影响较大的重要函数可以有效减少函数调用的额外开销。对于编译器,armcc遵从ATPCS的要求,第一到第四个参数依次通过r0~r4传递,其他参数通过堆栈传递,返回值用r0传递,因此,为了把大部分操作放在寄存器中完成,参数最好不多与4个。另外,可用的通用寄存器有12个,所以尽量将局部变量控制在12个之内,效率上会得到提升。同时,由于编译器比较保守,指针别名会引起多余的读操作,所以尽量少用。

循环优化部分

循环是程序设计中非常普遍的结构。在嵌入式系统中,微处理器执行时间在循环中运行的比例较大,因此关注循环的执行效率是非常必要的。除了在保证系统正确工作的前提下尽量简化核循环体的过程以外,正确和高效的循环结束标志条件也非常重要。

* 使用减数到零的循环体,以节省指令和寄存器的使用;

* 使用无符号的循环计数值,并用条件 i != 0中止,这样编译器可以用一条BNE (若非零则跳转)指令代替CMP (比较)和BLE (若小于则跳转)两条指令,既减小代码尺寸,又加快了运行ARM速度;

* 如果循环体至少执行一次,用优先选用do-while,这样编译器不会产生额外的代码来处理循环次数为0的情况;

* 适当情况下展开循环体;虽然会增加循环的代码大小,但是会减少循环跳转的开销;

* 尽量使用数组的大小是4或8的备述,用此倍数展开循环体 寄存器分配;

* 尽量限制函数内部循环所用局部变量的数目,最多不超过12个,以便编译器能把变量分配到寄存器;

* 可以引导编译器,通过查看是否属于最内层循环的便赖宁嘎来去定某个变量的重要

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top