程序的编译和链接

2023-05-29 10611

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。程序的执行便开始。接着便调用main函数。开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。终止程序。正常终止main函数；也有可能是意外终止。

@TOC

程序的编译和链接

程序的两种环境

在ANSI C的任何一种实现中，存在两个不同的环境。

第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令。

第2种是执行环境，它用于实际执行代码

翻译环境

平时我们写的程序都是一个个的源文件，那么这些文件是怎么生成.exe可执行文件的呢？这就是接下来我们要详细研究的内容

笼统的来讲，大致过程可以用下图来表示：

组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）。

每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序。

链接器同时也会引入标准C函数库中任何被该程序所用到的函数，而且它可以搜索程序员个人的程序库，将其需要的函数也链接到程序中。

详解编译和链接

编译，其实严格来说应该叫做翻译，因为翻译其实还分多个步骤，分别为预处理，编译，汇编。在VS中每一步骤是观察不到的，所以我们使用GCC编译器来观察现象，研究清楚每个步骤都是做什么的。

预处理

可以看到我这里有一个test.c文件，里面写了这样一段代码，这时候我们来看一下对它进行编译的第1步预处理，究竟做了些什么事情，我们用GCC来执行下面的指令：
gcc test.c -E > test.i
这句指令意思就是将编译test.c到预处理那步就停下来，并将所编译的信息重定向到test.i中，然后我们打开test.i看一下，

实际上已经不存在什么定义的宏了，而是直接被替换，另外还值得注意的是原本只有十几行的代码，经过预处理之后变成了850行，可以看到预处理做的事情其实还是蛮多的，但是重点我们就是来观察一下现象，知道预处理这步到底做了些什么就可以了，所谓预处理就是对一些文本进行操作,

总结如下：

1.#include 头文件的包含，

2.#define 宏替换

3.删除注释

都是一些对文本的操作

编译

有了第一步的经验，我们可以来看一下编译的步骤，指令如下：
gcc test.i -S > test.s
可以发现，我们的代码变成了汇编语言，这就是一个重要的步骤，其实翻译成汇编语言之外，还有语义分析，语法分析等等，你的一些语法错误等等就是这一步检查出来的，另外还有一个很重要的步骤是进行符号汇总，为什么说它重要呢，其实是为下一步生成符号表做准备。下一步再说，总结编译步骤：

编译：

1.语法分析

2.语义分析

3.符号汇总

4.翻译成汇编语言

等等

汇编

同样的操作：
gcc test.s -c > test.o
好的，这下彻底看不懂了，实际上这是因为，编译之后的目标文件其实是二进制文件，是无法识别的，但是这种类型的文件有它自己的格式叫做elf，有个工具readelf是可以看这种类型的文件的具体内容的，这种文件内容实际上也是有特点，都是一段一段的，每一段放不同的信息。我们先说汇编这步做了一些什么事情，

汇编：

1.翻译成二进制

2.生成符号表

我们用readelf这个工具要看关注的也就是这个符号表，来了解一下：

可以看到是有一堆选项，我们要用的就是-s，这个选项来看这个符号表

这个就是我们汇编这步生成的符号表，这个符号表存储了文件中符号的信息，之前我们的示意图中已经说了，我们的源文件是有多个的，每个文件里面的函数变量当然也是多个的，那最后我们链接起来怎么找到这些符号呢？靠的就是这个符号表，它会记录下每个符号的信息，函数，变量，它们的地址等等，在后面的链接这步中按照这个符号表来寻找。

链接

我相信很多人可能早就听过，链接就是将本地多个源文件组合起来，并且引入一些外部的库等等，但是对它到底这个步骤是怎么实现的并不清楚，

今天就来研究清楚，先说链接这个步骤到底做了什么，

链接：

1.合并段表

2.符号表的合并和重定位

段表这个今天先暂时不讨论，到后期才能彻底理解，

段表概念：在分段式存储管理系统中，每个进程或程序都有一个或多个逻辑段，为使程序或称进程能正常运行，亦即，能从物理内存中找出每个逻辑段所对应的位置，在系统中为每个进程建立一张段映射表，简称段表，段表记录了进程中每一个段在内存中的起始地址(又称为 “基址” )、段号和段的长度。

重点还是上面的符号表，符号表合并和重定位是什么意思呢？

举个例子：

像是这个例子就能简单的描述一下，符号表的问题，我们知道每个文件最后都会生成一个目标文件，所以每个源文件的目标文件中都有一张符号表，我们就需要信息合并，当test.c文件中安装符号表去找Add函数时，发现找不到(其实这时候Add的地址是个无效地址)，所以就会报出了错误，LNK的错误一定是链接时发生的错误，无法解析的外部符号就是根据符号表中的信息去找Add这个符号找不到。

如果add.c中将函数名改成正确的Add，在链接时符号表合并，就会将add.c中Add函数的地址重定向到合并之后的符号表中，这样才能够顺序执行。

如果当我们把test.c中的声明去掉，代码也是可以很好的跑起来的，编译器仅仅是报个警告，为什么呢？我想应该就很容易理解了，即使你没有声明，但是在最后符号表合并的时候依旧是很好的进行了合并。所以最后的结果是没有一点问题的。

运行环境

程序执行的过程：

程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。

程序的执行便开始。接着便调用main函数。

开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。

终止程序。正常终止main函数；也有可能是意外终止。

程序的编译和链接

程序的编译和链接

程序的两种环境

翻译环境

详解编译和链接

预处理

编译

汇编

链接

运行环境

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

程序的编译和链接

程序的编译和链接

程序的两种环境

翻译环境

详解编译和链接

预处理

编译

汇编

链接

运行环境

热门文章

最新文章

相关电子书