二、GCC编译过程
1. 程序的一般编译流程
我们拿到一个.c又或者是.cpp源文件,它是怎么样一步步的变化成一个机器可执行文件的呢,下面就带你解开源文件到可执行文件的神秘面纱。
程序的一般编译流程主要包括四大部分:预处理、编译、汇编和链接。下面讲解这四步的具体工作,带你了解源文件到可执行文件的“进化之路”。
(1)预处理(Preprocess)
这一步由预处理器完成,对源程序中的伪指令(以#开头的指令)和特殊符号进行处理,伪指令包括宏定义指令、条件编译指令和头文件中包含的指令。这一步的主要工作包括以下内容:
- 将所有的#define删除,并将宏定义进行宏展开;
- 处理所有条件编译指令,如#if、#ifdef、#ifndef、#else、#elif、#endif等;
- 处理 #include预编译指令,将被包含的头文件内容插入该预编译指令的位置,如果是多重包含的话会递归执行;
- 处理其他宏指令,包括#error、#warning、#line、#pragma;
- 处理所有注释(C++的//,C语言的/**/),一般会用一个空格来代替连续的注释;
- 添加行号和文件标识,以便于编译时编译器产生调试用的行号信息及编译时产生编译错误和警告时可以把行号打印出来;
- 保留所有的#pragma编译器指令;
- 处理预定义的宏:如__DATE__、__FILE__等;
- 处理三元符:比如会将??=替换为#,将??/替换成\等(对于键盘不提供#等输入的情况,可能会用到三元符,可以直接忽略这一条);
(2)编译(Compilation)
这一步由编译器完成,对预处理后的文件进行词法分析、语法分析、语义分析以及优化后生成相应的汇编代码文件。
- 词法分析:词法分析是编译过程的第一个阶段,这个阶段的任务可以看成是从左到右一个字符一个字符地读入源程序,从中识别出一个个单词符号,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。上述读入源程序的过程和识别符号的任务通过词法分析程序实现,词法分析整个过程依据的是语言的词法规则。词法分析程序的输出通常是一个二元组,即单词种别和单词自身的值。词法分析程序可以使用lex等工具自动生成。
- 语法分析:语法分析是编译过程的一个逻辑阶段,此阶段的任务是在词法分析的基础上将单词序列组合成各类语法短语,如“程序”,“语句”,“表达式”等等。语法分析程序判断源程序在结构上是否正确。
- 语义分析:语义分析是编译过程的一个逻辑阶段,语义是解释控制信息每个部分的意义,它规定了需要发出何种控制信息,以及完成的动作与做出什么样的响应,此阶段的任务是对结构上正确的源程序进行上下文有关性质的审查, 进行类型审查,语义分析将审查类型并报告错误。也就是说,语义分析结合上下文推导出语句真正的含义。
(3)汇编(Assemoly)
由汇编器完成,将汇编代码转变成机器可执行的二进制代码(机器码),并生成目标文件。之所以要经过预处理、编译、汇编这么一系列步骤才生成目标文件,是因为在每一阶段都有相应的优化技术,只有在每个阶段分别优化并生成最为高效的机器指令才能达到最大的优化效果,如果一步到位直接从源程序生成目标文件,可能就会失去很多代码优化的机会。
(4)链接(Linking)
由链接器完成,主要解决多个文件之间符号引用的问题,即symbol resolution。编译时编译器只对单个文件进行处理,如果该文件里面需要引用到其他文件中的符号,比如全局变量或者调用了某个库函数中的函数,那么这时候,在这个文件中该符号的地址是没法确定的,只能由链接器把所有的目标文件链接到一起才能确定最终的地址,并生成最终的可执行文件。无论采用静态链接还是动态链接,都会生成一个可以在计算机上执行的可执行程序。
2. GCC编译流程
GCC的编译流程也一样四个阶段,和上节所讲的一致。这里主要讲每个环节所使用的参数以及使用的工具。
(1)文件后缀
每一个环节都会生成一种类别的文件,并作为下一个环节的输入,GCC编译器是通过后缀来区分文件的类型的。
后缀 | 类型 |
.c | C源文件 |
.cpp / .cxx / .cc / .C | 这些都是C++源文件 |
.i | C源文件预处理后生成的文件 |
.s | 汇编语言的源文件 |
.o | 目标文件(链接后生成可执行文件) |
.h | 头文件 |
.ii | C++源文件预处理后生成的文件 |
.S | 预编译后的汇编源文件 |
补充一下C++的源文件后缀名,通过man可以查到
可以看到,我们上面并没有列出可执行文件的后缀,原因是,在Linux中,可执行文件并没有特定的后缀,Linux主要通过文件的权限来判断文件是否可执行,这一点一定要注意,这也是很多初学Linux的人很容易忽略的一点。
我这里生成了4个可执行文件,有==.out== 后缀的,有没有后缀的,甚至还有一个 .pp 后缀的,但他们都是可执行的
(2)参数及工具
① 预处理阶段
预处理也叫做预编译,这个阶段GCC会调用 cpp 进行预处理,预处理的工作可以参考上一节。gcc预处理的参数是 -E ,如果直接gcc -E一个C源文件的话,默认是不会把生成的文件放出来的,当我们执行命令的时候,会刷刷刷出来一大堆东西,这是因为预处理的时候会进行宏展开和宏替换,所以本来的程序会变成一个非常庞大的代码,而gcc默认不会生成新的文件,所以就把预处理后的代码全都打印在了终端,所以你执行命令后会看到一下子出来一堆代码
gcc -E hello.c
执行完预处理命令后,我们看一下当前目录,并没有发现hello.i这样的文件
我们要想获取这个==.i== 文件,就要通过 > 或 >> 进行重定向,其中 > 表示先清空再重定向, >> 表示追加。命令如下
gcc -E hello.c > hello.i
表示把 gcc -E hello.c生成的文件重定向到 hello.i 文件中
我们这时候再执行预处理命令,发现已经有了hello.i文件,并且屏幕上啥也没显示,不想刚才出来一堆代码,这是因为我们通过 > 把生成的代码重定向到了hello.i文件中了,所以,终端什么也没打印。那么,我们为什么要重定向到一个.i文件中,而不是重定向到.c文件中呢?前面说了,GCC通过文件后缀来区分文件类型,只有.i文件才能作为编译的输入,这么做是为了下一步。我们可以查看下hello.i的内容,非常非常的多,接近2000行,而我们源文件只有短短几行代码。
源文件
② 编译
调用 cc 进行编译(一般来说,Linux下 cc 是一个符号连接,指向 gcc),通过 -S 选项参数可以生成 .s 后缀的汇编代码文件,以下两种方式都可以生成 .s 文件,不用指定要生产的文件,会自动生成一个与源文件同名的 .s 为后缀的汇编文件
gcc -S hello.c gcc -S hello.i
通过 cat 命令查看一下,可以看到里面是汇编代码
③ 汇编
调用 as 将汇编代码变成 .o 后缀的目标文件,这里使用的选项参数是 -c ,同样不需要指定要生产的文件名,会自动生成一个与源文件同名的 .o 后缀的文件
看一下文件内容,看不懂,因为是机器码,只有机器能看懂,哈哈哈哈
④ 链接
调用 ld 进行链接,生成可执行文件,这一步不需要任何选项参数
这里要提醒一下,如果你不指定可执行文件名和后缀,gcc会默认生成一个 a.out ,也就是说,只要你不指定可执行文件名及后缀,那么你编译任何源文件,生成的都是 a.out ,那么你也可以根据自己的喜好生成自己喜欢的名字,上图中绿色的都是可执行文件。一般我们都是指定一个与源文件同名,没有后缀的文件作为可执行文件。这里再次强调,在Linux中,可执行文件并没有特定的后缀,Linux主要通过文件的权限来判断文件是否可执行,只要权限是可行的,那么这个文件就是可执行的,和他什么后缀,什么名称没有关系。
链接有两种方式,我们不加任何选项参数默认使用的是动态链接,使用静态链接要加一个选项 –static。
- 动态链接:动态是指在应用程序运行时才去加载外部的代码库,所以动态链接生成的程序比较小。
- 静态链接:它在编译阶段就会把所有用到的库打包到自己的可执行程序中,生成的程序比较大。
通过对比动态链接生成的a.out和静态链接生成的h_s可以看到其所占空间大小的差距。
⑤ 最后总结为一张图