前言
每当我们运行一段代码时,编译器都会自动的帮我们编译代码并将代码转换为一个二进制可执行文件(.exe), 有了这个可执行文件,便可以执行我们写的程序了。那么编译器对代码的编译以及生成可执行程序的过程是怎样的呢?这个问题便是本文章将要探讨的。
程序的环境
在ANSI C
的任何一种实现中,存在两个不同的环境,一种是翻译环境,一种是执行环境:
- 翻译环境:在这个环境中源代码被转换为可执行的机器指令;
- 执行环境:这个环境用于实际执行代码。
补充:
程序的编译与链接
首先看看 翻译环境 的简图:
组成一个程序的每个源文件通过编译过程分别转换成目标代码(object code)。
每个目标文件由链接器(linker)捆绑在一起,形成一个单一而完整的可执行程序。
链接器同时也会引入标准C函数库中任何被该程序所用到的函数,而且它可以搜索序员个人的程序库,将其需要的函数也链接到程序中。
编译本身也分为几个阶段:
预编译 —> 编译 —> 汇编
预编译(预处理)
预编译又叫预处理。预编译不是编译,而是编译前的处理,编译器正式开始编译程序之前,会执行一段预处理程序(又称预处理器)专门对程序执行预处理操作。
预处理阶段要做的事情主要是这些:
- 对
#include
头文件的包含; - 对
#define
定义符号的替换和删除; - 注释的删除。
接下来在linux
中用gcc编译器对一段代码进行预处理,如下:
预处理过后,我们观察test.i
这个预编译后的文件:
指令:gcc -E test.c -o test.i
可以看到,代码一下子膨胀了许多,这正是因为头文件被包含进来了,当来原先的#define
与注释也不见了。
- 编译
编译阶段是将C语言代码翻译成汇编代码, 其过程有:
- 语法分析;
- 词法分析;
- 语义分析;
- 符号汇总。
符号汇总就是将相关的函数,以及全局变量汇总:
例如以下代码汇总后客观图:
将上述代码编译后:
指令:gcc -S test.c -o test.s
可以看到,C语言被翻译成了汇编代码。
- 汇编
- 汇编是将汇编代码翻译成了二进制指令(存放目标文件),也就是生成目标文件的一步(
test.o
); - 汇编使汇总的符号形成符号表,也就是每个符号对应一个地址。
如下:
就将上述代码汇编,我们来看看test.o是不是二进制文件呢?
指令:gcc -c test.c -o test.o
可以看到,的确是一些二进制乱码。
通过编译的一系列过程后,接下来就是链接了
链接的相关过程有:
1. 合并段表(这里不解释,需了解细读《程序员的自我修养》这本书,里面对整个编译链接部分都有很详细的讲解)
2. 符号表的合并和重定位。
这里只讲解符号表的合并:
- 在上面所探讨的编译过程,每一个文件都会形成自己的目标文件,在汇编这一步,又会形成自己的符号表;
- 如果一个程序有两个文件,就会有两个符号表,所以,符号表的合并,就是链接的一步。
例如test1.c文件和test2.c文件的符号表合并过程:
最终,通过链接器和链接库将各个目标文件链接后形成可执行文件。
程序执行的过程:
程序必须载入内存中。在有操作系统的环境中:一般这个由操作系统完成。在独立的环境中,程序的载入必须由手工安排,也可能是通过可执行代码置入只读内存来完成。
程序的执行便开始。接着便调用main函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈(stack),存储函数的局部变量和返回地址。程序同时也可以使用静态(static)内存,存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
终止程序。正常终止main函数;也有可能是意外终止。
写在最后
如果说,你对这一块特别感兴趣,想继续深入,你可以读《程序员的自我修养》这本书,这本书里对这一块的知识有很详细的解析。
感谢阅读本小白的博客,错误的地方请严厉指出噢!