少优化->多优化:

O0 -->> O1 -->> O2 -->> O3

-O0表示没有优化,-O1为缺省值,-O3优化级别最高


英文解析:

`-O '

`-O1 '

                Optimize.      Optimizing   compilation   takes   somewhat   more   time,   and   a

                lot   more   memory   for   a   large   function.


                With   `-O ',   the   compiler   tries   to   reduce   code   size   and   execution

                time,   without   performing   any   optimizations   that   take   a   great   deal

                of   compilation   time.


                `-O '   turns   on   the   following   optimization   flags:

                               -fdefer-pop   

                               -fdelayed-branch   

                               -fguess-branch-probability   

                               -fcprop-registers   

                               -floop-optimize   

                               -fif-conversion   

                               -fif-conversion2   

                               -ftree-ccp   

                               -ftree-dce   

                               -ftree-dominator-opts   

                               -ftree-dse   

                               -ftree-ter   

                               -ftree-lrs   

                               -ftree-sra   

                               -ftree-copyrename   

                               -ftree-fre   

                               -ftree-ch   

                               -funit-at-a-time   

                               -fmerge-constants


                `-O '   also   turns   on   `-fomit-frame-pointer '   on   machines   where   doing

                so   does   not   interfere   with   debugging.


                `-O '   doesn 't   turn   on   `-ftree-sra '   for   the   Ada   compiler.      This

                option   must   be   explicitly   specified   on   the   command   line   to   be

                enabled   for   the   Ada   compiler.


`-O2 '

                Optimize   even   more.      GCC   performs   nearly   all   supported

                optimizations   that   do   not   involve   a   space-speed   tradeoff.      The

                compiler   does   not   perform   loop   unrolling   or   function   inlining   when

                you   specify   `-O2 '.      As   compared   to   `-O ',   this   option   increases

                both   compilation   time   and   the   performance   of   the   generated   code.


                `-O2 '   turns   on   all   optimization   flags   specified   by   `-O '.      It   also

                turns   on   the   following   optimization   flags:

                               -fthread-jumps   

                               -fcrossjumping   

                               -foptimize-sibling-calls   

                               -fcse-follow-jumps      -fcse-skip-blocks   

                               -fgcse      -fgcse-lm      

                               -fexpensive-optimizations   

                               -fstrength-reduce   

                               -frerun-cse-after-loop      -frerun-loop-opt   

                               -fcaller-saves   

                               -fpeephole2   

                               -fschedule-insns      -fschedule-insns2   

                               -fsched-interblock      -fsched-spec   

                               -fregmove   

                               -fstrict-aliasing   

                               -fdelete-null-pointer-checks   

                               -freorder-blocks      -freorder-functions   

                               -falign-functions      -falign-jumps   

                               -falign-loops      -falign-labels   

                               -ftree-vrp   

                               -ftree-pre


                Please   note   the   warning   under   `-fgcse '   about   invoking   `-O2 '   on

                programs   that   use   computed   gotos.


`-O3 '

                Optimize   yet   more.      `-O3 '   turns   on   all   optimizations   specified   by

                `-O2 '   and   also   turns   on   the   `-finline-functions ',

                `-funswitch-loops '   and   `-fgcse-after-reload '   options.


`-O0 '

                Do   not   optimize.      This   is   the   default.


///==================另外还有个Os选项==========================

​http://hi.baidu.com/ah__fu/blog/item/cc9fd19b801948bdc9eaf4b3.html​

在研究编译驱动的makefile的时候,发现GCC的命令行里面有一个-Os的优化选项。

    遍查GCC文档,发现了-O0, -O1, -O2, -O3,就是没有发现-Os。

    祭出GOOGLE大法搜了一下,终于发现这篇文章说明了-Os的作用:

​http://www.linuxjournal.com/article/7269​

   原来-Os相当于-O2.5。是使用了所有-O2的优化选项,但又不缩减代码尺寸的方法。

   详细的说明如下:

Level 2.5 (-Os)

The special optimization level (-Os or size) enables all -O2 optimizations that do not increase code size; it puts the emphasis on size over speed. This includes all second-level optimizations, except for the alignment optimizations. The alignment optimizations skip space to align functions, loops, jumps and labels to an address that is a multiple of a power of two, in an architecture-dependent manner. Skipping to these boundaries can increase performance as well as the size of the resulting code and data spaces; therefore, these particular optimizations are disabled. The size optimization level is enabled as:

gcc -Os -o test test.cIn gcc 3.2.2, reorder-blocks is enabled at -Os, but in gcc 3.3.2 reorder-blocks is disabled.

==============================

补充:在GCC的官方文档里又发现了关于-Os的说明:

​http://gcc.gnu.org/onlinedocs/gcc-3.4.6/gcc/Optimize-Options.html#Optimize-Options​




​​

backtrace与fomit-frame-pointer选项

事实上gcc的所有级别的优化(-O, -O2, -O3等)都会打开-fomit-frame-pointer,该选项的功能是函数调用时不保存frame指针,在ARM上就是fp,故我们无法按照 APCS中的约定来回溯调用栈。但是GDB中仍然可以使用bt命令看到调用栈,为什么?得知GDB v6之后都是支持DWARF2的,也就意味着它可以不依赖fp来回溯调用栈(详见 ​​http://gcc.gnu.org/ml/gcc/2003-10/msg00322.html​​)。

看来想在代码中动态显示调用栈而又不希望使用GDB的朋友,只能在编译时关掉-fomit-frame-pointer了。

//==================gcc参数大全:===========================

[介绍]

gcc and g++分别是gnu的c & c++编译器 gcc/g++在执行编译工作的时候,总共需要4步

1.预处理,生成.i的文件[预处理器cpp]

2.将预处理后的文件不换成汇编语言,生成文件.s[编译器egcs]

3.有汇编变为目标代码(机器代码)生成.o的文件[汇编器as]

4.连接目标代码,生成可执行程序[链接器ld]

[参数详解]

-x language filename

 设定文件所使用的语言,使后缀名无效,对以后的多个有效.也就是根据约定C语言的后缀名称是.c的,而C++的后缀名是.C或者.cpp,如果你很个性, 决定你的C代码文件的后缀名是.pig 哈哈,那你就要用这个参数,这个参数对他后面的文件名都起作用,除非到了下一个参数的使用。

  可以使用的参数吗有下面的这些

  `c', `objective-c', `c-header', `c++', `cpp-output', `assembler', and `assembler-with-cpp'.

  看到英文,应该可以理解的。

  例子用法:

  gcc -x c hello.pig


-x none filename

  关掉上一个选项,也就是让gcc根据文件名后缀,自动识别文件类型

  例子用法:

  gcc -x c hello.pig -x none hello2.c


-c

  只激活预处理,编译,和汇编,也就是他只把程序做成obj文件

  例子用法:

  gcc -c hello.c

  他将生成.o的obj文件

-S

  只激活预处理和编译,就是指把文件编译成为汇编代码。

  例子用法

  gcc -S hello.c

  他将生成.s的汇编代码,你可以用文本编辑器察看

-E

  只激活预处理,这个不生成文件,你需要把它重定向到一个输出文件里面.

  例子用法:

  gcc -E hello.c > pianoapan.txt

  gcc -E hello.c | more

  慢慢看吧,一个hello word 也要与处理成800行的代码

-o

  制定目标名称,缺省的时候,gcc 编译出来的文件是a.out,很难听,如果你和我有同感,改掉它,哈哈

  例子用法

  gcc -o hello.exe hello.c (哦,windows用习惯了)

  gcc -o hello.asm -S hello.c

-pipe

  使用管道代替编译中临时文件,在使用非gnu汇编工具的时候,可能有些问题

  gcc -pipe -o hello.exe hello.c

-ansi

  关闭gnu c中与ansi c不兼容的特性,激活ansi c的专有特性(包括禁止一些asm inline typeof关键字,以及UNIX,vax等预处理宏,

-fno-asm

  此选项实现ansi选项的功能的一部分,它禁止将asm,inline和typeof用作关键字。     

-fno-strict-prototype

  只对g++起作用,使用这个选项,g++将对不带参数的函数,都认为是没有显式的对参数的个数和类型说明,而不是没有参数.

  而gcc无论是否使用这个参数,都将对没有带参数的函数,认为城没有显式说明的类型


-fthis-is-varialble

  就是向传统c++看齐,可以使用this当一般变量使用.


-fcond-mismatch

  允许条件表达式的第二和第三参数类型不匹配,表达式的值将为void类型


-funsigned-char

-fno-signed-char

-fsigned-char

-fno-unsigned-char

  这四个参数是对char类型进行设置,决定将char类型设置成unsigned char(前两个参数)或者 signed char(后两个参数)


-include file

  包含某个代码,简单来说,就是便以某个文件,需要另一个文件的时候,就可以用它设定,功能就相当于在代码中使用#include<filename>

  例子用法:

  gcc hello.c -include /root/pianopan.h


-imacros file

  将file文件的宏,扩展到gcc/g++的输入文件,宏定义本身并不出现在输入文件中


-Dmacro

  相当于C语言中的#define macro


-Dmacro=defn

  相当于C语言中的#define macro=defn


-Umacro

  相当于C语言中的#undef macro

-undef

  取消对任何非标准宏的定义


-Idir

  在你是用#include"file"的时候,gcc/g++会先在当前目录查找你所制定的头文件,如果没有找到,他回到缺省的头文件目录找,如果使用-I制定了目录,他

  回先在你所制定的目录查找,然后再按常规的顺序去找.

  对于#include<file>,gcc/g++会到-I制定的目录查找,查找不到,然后将到系统的缺省的头文件目录查找


-I-

  就是取消前一个参数的功能,所以一般在-Idir之后使用


-idirafter dir

  在-I的目录里面查找失败,讲到这个目录里面查找.


-iprefix prefix

-iwithprefix dir

  一般一起使用,当-I的目录查找失败,会到prefix+dir下查找


-nostdinc

  使编译器不再系统缺省的头文件目录里面找头文件,一般和-I联合使用,明确限定头文件的位置


-nostdin C++

  规定不在g++指定的标准路经中搜索,但仍在其他路径中搜索,.此选项在创libg++库使用


-C

  在预处理的时候,不删除注释信息,一般和-E使用,有时候分析程序,用这个很方便的


-M

  生成文件关联的信息。包含目标文件所依赖的所有源代码你可以用gcc -M hello.c来测试一下,很简单。


-MM

  和上面的那个一样,但是它将忽略由#include<file>造成的依赖关系。


-MD

  和-M相同,但是输出将导入到.d的文件里面


-MMD

  和-MM相同,但是输出将导入到.d的文件里面


-Wa,option

  此选项传递option给汇编程序;如果option中间有逗号,就将option分成多个选项,然后传递给会汇编程序


-Wl.option

  此选项传递option给连接程序;如果option中间有逗号,就将option分成多个选项,然后传递给会连接程序.

-llibrary

  制定编译的时候使用的库

  例子用法

  gcc -lcurses hello.c

  使用ncurses库编译程序


-Ldir

  制定编译的时候,搜索库的路径。比如你自己的库,可以用它制定目录,不然

  编译器将只在标准库的目录找。这个dir就是目录的名称。


-O0

-O1

-O2

-O3

  编译器的优化选项的4个级别,-O0表示没有优化,-O1为缺省值,-O3优化级别最高     

-g

  只是编译器,在编译的时候,产生调试信息。


-gstabs

  此选项以stabs格式声称调试信息,但是不包括gdb调试信息.


-gstabs+

  此选项以stabs格式声称调试信息,并且包含仅供gdb使用的额外调试信息.


-ggdb

  此选项将尽可能的生成gdb的可以使用的调试信息.

-static

  此选项将禁止使用动态库,所以,编译出来的东西,一般都很大,也不需要什么

动态连接库,就可以运行.

-share

  此选项将尽量使用动态库,所以生成文件比较小,但是需要系统由动态库.

-traditional

  试图让编译器支持传统的C语言特性

[参考资料]

-Linux/UNIX高级编程

  中科红旗软件技术有限公司编著.清华大学出版社出版

-Gcc man page


[ChangeLog]

-2002-08-10

  ver 0.1 发布最初的文档

-2002-08-11

  ver 0.11 修改文档格式

-2002-08-12

  ver 0.12 加入了对静态库,动态库的参数

-2002-08-16

  ver 0.16 增加了gcc编译的4个阶段的命令

运行 gcc/egcs

**********运行 gcc/egcs***********************

  GCC 是 GNU 的 C 和 C++ 编译器。实际上,GCC 能够编译三种语言:C、C++ 和 Object C(C 语言的一种面向对象扩展)。利用 gcc 命令可同时编译并连接 C 和 C++ 源程序。

  如果你有两个或少数几个 C 源文件,也可以方便地利用 GCC 编译、连接并生成可执行文件。例如,假设你有两个源文件 main.c 和 factorial.c 两个源文件,现在要编译生成一个计算阶乘的程序。

代码:

-----------------------

清单 factorial.c

-----------------------

int factorial (int n)

{

  if (n <= 1)

   return 1;

  else

   return factorial (n - 1) * n;

}

-----------------------

清单 main.c

-----------------------

#include <stdio.h>

#include <unistd.h>

int factorial (int n);

int main (int argc, char **argv)

{

  int n;

  if (argc < 2)

  {

    printf ("Usage: %s n\n", argv [0]);

    return -1;

  }

  else

  {

   n = atoi (argv[1]);

   printf ("Factorial of %d is %d.\n", n, factorial (n));

   }

  return 0;

}

-----------------------

利用如下的命令可编译生成可执行文件,并执行程序:

$ gcc -o factorial main.c factorial.c

$ ./factorial 5

Factorial of 5 is 120.

  GCC 可同时用来编译 C 程序和 C++ 程序。一般来说,C 编译器通过源文件的后缀名来判断是 C 程序还是 C++ 程序。在 Linux 中,C 源文件的后缀名为 .c,而 C++ 源文件的后缀名为 .C 或 .cpp。但是,gcc 命令只能编译 C++ 源文件,而不能自动和 C++ 程序使用的库连接。因此,通常使用 g++ 命令来完成 C++ 程序的编译和连接,该程序会自动调用 gcc 实现编译。假设我们有一个如下的 C++ 源文件(hello.C):

#include <iostream>

void main (void)

{

  cout << "Hello, world!" << endl;

}

则可以如下调用 g++ 命令编译、连接并生成可执行文件:

$ g++ -o hello hello.C

$ ./hello

Hello, world!

**********************gcc/egcs 的主要选项*********

gcc 命令的常用选项

选项 解释

-ansi 只支持 ANSI 标准的 C 语法。这一选项将禁止 GNU C 的某些特色,

例如 asm 或 typeof 关键词。

-c 只编译并生成目标文件。

-DMACRO 以字符串“1”定义 MACRO 宏。

-DMACRO=DEFN 以字符串“DEFN”定义 MACRO 宏。

-E 只运行 C 预编译器。

-g 生成调试信息。GNU 调试器可利用该信息。

-IDIRECTORY 指定额外的头文件搜索路径DIRECTORY。

-LDIRECTORY 指定额外的函数库搜索路径DIRECTORY。

-lLIBRARY 连接时搜索指定的函数库LIBRARY。

-m486 针对 486 进行代码优化。

-o FILE 生成指定的输出文件。用在生成可执行文件时。

-O0 不进行优化处理。

-O 或 -O1 优化生成代码。

-O2 进一步优化。

-O3 比 -O2 更进一步优化,包括 inline 函数。

-shared 生成共享目标文件。通常用在建立共享库时。

-static 禁止使用共享连接。

-UMACRO 取消对 MACRO 宏的定义。

-w 不生成任何警告信息。

-Wall 生成所有警告信息。


​​


源码snprintf/strncpy/strlcpy速度测试代码:


#include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <sys/time.h> #include <sched.h> #define COUNT 10000000 //#define COUNT 10000000 #define MILLION 1000000L  size_t VisCore_Strlcpy(char *dst, const char *src, size_t n) {     const char *src0 = src;     char dummy[1];              if (!n) {         dst = dummy;     }     else {         --n;     }                 while ((*dst = *src) != 0) {         if (n) {             --n;             ++dst;         }         ++src;      }          return src - src0; }       int main(void) {     int i;     long long   tdif;     struct timeval tend, tstart;     char data[1024];     char *buf1 = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"         "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"         "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaababbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb"         "aaaaaaaaaaaaabbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb"         "ccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc";      char *buf = "aaaaaaaaaaaaaaaaaaaaaaaa";      if (gettimeofday(&tstart, NULL) == -1) {         fprintf(stderr, "Failed to get start time\n");         return 1;     } #if 1        for (i = 0; i < COUNT; i++) {         //snprintf(data, sizeof(data), "%s", buf);         //snprintf(data, sizeof(data), "%s", buf);         //strlcpy(data, buf, sizeof(data));         VisCore_Strlcpy(data, buf, sizeof(data));         //strncpy(data, buf, sizeof(data));     }    #endif           if (gettimeofday(&tend, NULL) == -1) {         fprintf(stderr, "Failed to get end time\n");         return 1;     }     tdif = MILLION * (tend.tv_sec - tstart.tv_sec) + (tend.tv_usec - tstart.tv_usec);     //printf("nanosleep() time is %lld us\n", tdif);     printf("nanosleep() time is %lld us\n", tdif/COUNT);     return 0; }



arm-hisiv100nptl-linux-gcc 编译后不同级别(默认,O0, O1, O2, O3, Os)可执行文件大小对应的结果:


strip之前: yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ ll 总用量 80 drwxrwxr-x 2 yinguicai yinguicai  4096 12月 13 09:53 ./ drwxrwxr-x 3 yinguicai yinguicai  4096 12月 13 09:53 ../ -rwxrwxr-x 1 yinguicai yinguicai 11161 12月 13 09:53 a.out-default* -rwxrwxr-x 1 yinguicai yinguicai 11161 12月 13 09:53 a.out-O0* -rwxrwxr-x 1 yinguicai yinguicai 10809 12月 13 09:53 a.out-O1* -rwxrwxr-x 1 yinguicai yinguicai 10817 12月 13 09:53 a.out-O2* -rwxrwxr-x 1 yinguicai yinguicai 10849 12月 13 09:53 a.out-O3* -rwxrwxr-x 1 yinguicai yinguicai 10736 12月 13 09:53 a.out-Os*  yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-default  yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-O0 yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-O1 yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-O2 yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-O3 yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ arm-hisiv100nptl-linux-strip a.out-Os  strip之后: yinguicai@Cpl-IBP-Product:~/data/tmp/time/tmp$ ll 总用量 56 drwxrwxr-x 2 yinguicai yinguicai 4096 12月 13 09:54 ./ drwxrwxr-x 3 yinguicai yinguicai 4096 12月 13 09:53 ../ -rwxrwxr-x 1 yinguicai yinguicai 6440 12月 13 09:54 a.out-default* -rwxrwxr-x 1 yinguicai yinguicai 6440 12月 13 09:54 a.out-O0* -rwxrwxr-x 1 yinguicai yinguicai 6092 12月 13 09:54 a.out-O1* -rwxrwxr-x 1 yinguicai yinguicai 6100 12月 13 09:54 a.out-O2* -rwxrwxr-x 1 yinguicai yinguicai 6128 12月 13 09:54 a.out-O3* -rwxrwxr-x 1 yinguicai yinguicai 6016 12月 13 09:54 a.out-Os*



arm-hisiv100nptl-linux-gcc 编译后不同级别(默认,O0, O1, O2, O3, Os)可执行文件运行速度对应的结果:

             源、目标长度大小

相关函数

dst:24  src:678

dst:680  src:678

dst:1024  src:678

dst:1024  src:24

VisCore_Strlcpy(us)  O3 优化

2.934201

2.571703

2.571759

0.108671

VisCore_Strlcpy(us)  O2 优化

2.934305

2.571704

2.57172

0.108673

VisCore_Strlcpy(us)  Os 优化

3.678672

3.678688

3.678671

0.185096

VisCore_Strlcpy(us)  O1 优化

3.070963

3.070872

3.070882

0.163555

VisCore_Strlcpy(us)  O0 默认

16.902501

18.300108

18.302474

0.710118


相关结论:


1、gcc默认优化级别为O0 2、优化级别越高,通常情况下生成的可执行文件越小。当优化到一定程度后,可执行文件可能会变大,如O2比O1大 3、当优化到一定程度后,可能就不会再次优化(与代码有关系),如O2和O3一样 4、Os使用所有O2级别的优化,但对齐优化除外。 对齐优化按照体系结构相关的方式将函数,循环,jump和label对准为2的幂的倍数的地址(此时可执行文件会变大)。  对齐优化可以提高性能,但同时也增加了代码和数据空间的大小。Os强调可执行文件的大小而不是速度。所以我们看到Os生成的可执行文件较O2要小。 5、通过以上数据初步表明Os较O2 strip后,空间减少了1.4%=(6100-6016)/6016,性能却牺牲了25%=(3.67-2.93)/2.93。当然,这虽只是个个例,但也能说明一定的问题。



不同级别优化后运行速度顺序一般为:O0 < Os < O1 < O2 <= O3

不同级别优化后可执行文件大小(未strip)顺序一般为:O0 > O3 >= O2 > O1 > Os


关于静态链接和动态链接:

             源、目标长度大小

相关函数(O2 优化)

dst:24  src:678

dst:680  src:678

dst:1024  src:678

dst:1024  src:24

strlcpy(us)             动态

3.681469

3.681542

3.681374

0.174848

VisCore_Strlcpy(us)     动态

2.934305

2.571704

2.57172

0.108673

strlcpy(us)             静态

4.040356

4.040297

4.040223

0.213049

VisCore_Strlcpy(us)     静态

2.572816

2.572772

2.571733

0.119976

​​动态链接和静态连接的优缺点 ​​

注意:根据数据判断,静态链接在执行速度上较动态链接有快有慢,所以上面这篇博文中的描述有些问题


aa


一个奔跑的程序员