本篇整理于《程序员的自我修养》一书中编译与链接相关知识,整理的目的是为了更加深入的了解编译于链接的更多底层知识,面对程序运行时种种性能瓶颈我们束手无策。我们看到的是这些问题的现象,但是却很难看清本质,所有这些问题的本质就是软件运行背后的机理及支撑软件运行的各种平台和工具,如果能够深入了解这些机制,那么解决这些问题就能够游刃有余,收放自如了。
1.首言:
对于平常的应用程序开发,我们很少需要关注编译和链接过程,因为通常的开发环境都是流行的集成开发环境(IDE), 比如Visual Studio、Delphi 等。这样的IDE一般都将编译和链接的过程.“一步完成,通常将这种编译和链接合并到一起的过程称为构建(Build)。
即使使用命令行来编译-一个源代码文件,简单的一句“gcchello.c"命令就包含了非常复杂的过程。
IDE和编译器提供的默认配置、编译和链接参数对于大部分的应用程序开发而言已经足够使用了。但是在这样的开发过程中,我们往往会被这些复杂的集成工具所提供的强大功能所迷惑,很多系统软件的运行机制与机理被掩盖,其程序的很多莫名其妙的错误让我们无所适从,面对程序运行时种种性能瓶颈我们束手无策。我们看到的是这些问题的现象,但是却很难看清本质,所有这些问题的本质就是软件运行背后的机理及支撑软件运行的各种平台和工具,如果能够深入了解这些机制,那么解决这些问题就能够游刃有余,收放自如了。
2.程序的翻译环境和执行环境
在ANSI(标准) C的任何一种实现中,存在两个不同的环境。
- 第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令。
- 第2种是执行环境,它用于实际执行代码。
3.翻译环境中被隐藏的部分
我们通常说源文件编译链接生成可执行程序:
- 1.组成一个程序的每个源文件通过编译过程分别转换成目标代码也叫目标文件(object code)。
- 2.每个目标文件由链接器(linker)捆绑在一起,形成一个单一而完整的可执行程序。
- 3.链接器同时也会引入标准C函数库中任何被该程序所用到的函数,而且它可以搜索程序员个人 的程序库,将其需要的函数也链接到程序中。
3.1编译本身也分为几个阶段:
而这生成可执行程序就包括了这四个步骤:预编译,编译,汇编,链接。
①预编译
预编译阶段做了什么?
首先产生一个test.i文件
首先是源代码文件hello.c和相关的头文件,如stdio.h等被预编译器cpp预编译成一-个i文件。对于C++程序来说,它的源代码文件的扩展名可能是.cpp或.cxx,头文件的扩展名可能是.hpp,而预编译后的文件扩展名是.i。第一步 预编译的过程相当于如下命令(-E表示只进行预编译):
$gcc -E hello.c -o hello. i
预编译过程主要处理那些源代码文件中的以“#”开始的预编译指令。
- 将所有的“#define"删除,并且展开所有的宏定义。
- 处理所有条件预编译指令,比如“#if”、 “#ifdef"、 “#elif" “#else"、 “#endif"。
- 处理“#include"预编译指令,将被包含的文件插入到该预编译指令的位置。注意,这个过程是递归进行的,也就是说被包含的文件可能还包含其他文件。
- 删除所有的注释“//” 和“/ /”。
- 添加行号和文件名标识,比如#2“hello.c"2,以便于编译时编译器产生调试用的行号
- 信息及用于编译时产生编译错误或警告时能够显示行号。 保留所有的#pragma编译器指令,因为编译器须要使用它们。
②编译
编译阶段做什么?
生成一个test.s文件
-------把C语言代码翻译成汇编代码
会进行:
语法分析
词法分析——————更详细的请看《程序员的自我修养》一书
语义分析
重要:【符号汇总】–符号就是全局变量,函数
会将这些符号记录下来。
编译过程就是把预处理完的文件进行–系列词法分析、语法分析、语义分析及优化后生产相应的汇编代码文件,这个过程往往是我们所说的整个程序构建的核心部分,也是最复杂的部分
③汇编
汇编阶段做什么?
生成一个test.o文件—目标文件
1.把汇编代码翻译成二进制指令存放到目标文件
2.形成符号表—会将符号给个地址,形成符号表
汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎都对应-条机器指令。所以汇编器的汇编过程相对于编译器来讲比较简单,它没有复杂的语法,也没有语义,也不需要做指令优化,只是根据汇编指令和机器指令的对照表一-翻译就可以了 ,“汇编”这个名字也来源于此。上面 的汇编过程我们可以调用汇编器as来完成:
$as he11o.s -0 he1l1o.o
④链接
链接通常是-一个让人比较费解的过程,为什么汇编器不直接输出可执行文件而是输出一个目标文件呢?链接过程到底包含了什么内容?为什么要链接?
我们先看下 这个问题,我们创建3个.c文件
经过编译器这个个步骤以后,每个源代码终于被编译成了目标代码。但是test.o这个目标代码中有-一个问题是:a和b的地址还没有确定。如果我们要把目标代码使用汇编器编译成真正能够在机器_上执行的指令,那么a和b的地址应该从哪儿得到呢?如果a和b定义在跟上面的源代码同一个编译单元里面,那么编译器可以为a和b分配空间,确定它们的地址:那如果是定义在其他的程序模块呢?
这个看似简单的问题引出了我们一一个很大的话题:目标代码中有变量定义在其他模块,该怎么办?事实上,定义其他模块的全局变量和函数在最终运行时的绝对地址都要在最终链接的时候才能确定。所以现代的编译器可以将一个源代码文件编译成一个未链接的目标文件,然后由链接器最终将这些目标文件链接起来形成可执行文件。让我们带着这个问题,走进链接的世界。
④.Ⅰ重定位
由于在编译目标文件test.0的时候,编译器并不知道变量a,b的目标地址,所以编译器在没法确定地址的情况下,将这条mov指令的目标地址置为0,等待链接器在将目标文件test.0与a.o和b.o链接起来的时候再将其修正。我们假设test.o和a.o,b.o链接后,变量的地址确定下来为0x 1000,0x1001,那么链接器将会把这个指令的目标地址部分修改成0x1000和0x1001这个地址修正的过程也被叫做重定位(Relocation)
重定位所做的就是给程序中每个这样的绝对地址引用的位置“打补丁”,使它们指向正确的地址。
④.Ⅱ 符号引用—链接
函数访问须知道目标函数的地址,变量访问也须知道目标变量的地址,所以这两种方式都可以归结为一种方式, 那就是模块间符号的引用。模块间依靠符号来通信类似于拼图版,定义符号的模块多出一块区域,引用该符号的模块刚好少了那一块区域, 两者一拼接刚好完美组合(见图2-7)。这个模块的拼接过程就:链接(Linking)。
简单来讲就是 在编译过程中每个模块会进行符号汇总,然后汇编过程会给每个符号定位个地址,这个地址要看该模块是否分配了,如果没有分配那就为空地址。
最后链接的目的就是将不同模块的符号的地址重定位,将符号的地址统一,使程序可以执行。
④.Ⅲ 理解总结:
编译和链接过程也并非想象中的那么复杂,它还是一个比较容易理解的概念。
比如我们在程序模块main.c中使用另外一个模块Add.c中的函数add()。我们在main.c模块中每–处调用add的时候都必须确切知道add这个函数的地址,但是由于每个模块都是单独编译的,在编译器编译main.c的时候它并不知道add函数的地址,所以它暂时把这些调用add的指令的目标地址搁置,等待最后链接的时候由链接器去将这些指令的目标地址修正。如果没有链接器,须要我们手工把每个调用add的指令进行修i正,则填入正确的add函数地址。
当Add.c模块被重新编译,add 函数的地址有可能改变时,那么我们在main.c中所有使用到add的地址的指令将要全部重新调整。这些繁琐的工作将成为程序员的噩梦。
使用链接器,你可以直接引用其他模块的函数和全局变量而无须知道它们的地址,因为链接器在链接的时候,会根据你所引用的符号add, 自动去相应的Add.c模块查找add的地址,然后将main.c模块中所有引用到add的指令重新修n正,让它们的目标地址为真正的add函数的地址。这就是静态链接的最基本的过程和作用。
总结:
4.运行环境
程序执行的过程:
1.程序必须载入内存中。在有操作系统的环境中:一般这个由操作系统完成。在独立的环境中,程序的载入必须由手工安排,也可能是通过可执行代码置入只读内存来完成。
2.程序的执行便开始。接着便调用main函数。
3.开始执行程序代码。这个时候程序将使用一个运行时堆栈(stack),存储函数的局部变量和返回地址。程序同时也可以使用静态(static)内存,存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
4.终止程序。正常终止main函数;也有可能是意外终止。
5.总结:
在本篇中, 我们首先回顾了从程序源代码到最终可执行文件的4个步骤:预编译、编译、汇编、链接,分析了它们的作用及相互之间的联系,IDE集成开发工具和编译器默认的命令通常将这些步骤合并成一一步,使得我们通常很少关注这些步骤。
我们还总结了上面这4个步骤中的主要部分,即编译步骤。介绍了编译器将C程序源代码转变成汇编代码的若干个步骤:词法分析、语法分析、语义分析、目标代码生成。
最后我们介绍了:重定位、符号、目标文件等概念