生活明朗,万物可爱,人间值得。
1. 程序的翻译环境和执行环境
在ANSI C的任何一种实现中,存在两个不同的环境。
第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令。
第2种是执行环境,它用于实际执行代码。
1.1翻译环境
翻译环境大致分为四个步骤:预编译(预处理)--> 编译 --> 汇编 --> 链接
接下来我们看各个步骤产生了哪些变化:
1.11 预处理:
预处理 选项 gcc - E test.c - o test.i
预处理完成之后就停下来,预处理之后产生的结果都放在 test.i 文件中。
预处理究竟是处理了哪些东西呢?
头文件的包含
注释的删除
#define符号的替换
1.12 编译:
编译 选项 gcc - S test.c
编译完成之后就停下来,结果保存在 test.s 中。
编译又处理了啥呢?
如果是C语言代码,就把C语言代码转换成汇编代码
进行语法分析,词法分析,语义分析,符号汇总
1.13 汇编:
汇编 选项 gcc - c test.c
汇编完成之后就停下来,结果保存在 test.o 中。
当汇编进行完毕的时候就会产生目标文件(Windows平台下文件后缀名为.obj Linux 平台下文件后缀名为.o
同样汇编又处理了哪些呢?
将汇编指令转化成二进制指令
形成符号表
1.14 链接:
链接 选项 gcc text.o add.o -o text
每个目标文件由链接器( linker )捆绑在一起,形成一个单一而完整的可执行程序。
链接的处理:
合并段表
符号表的合并与重定位
由于博主知识掌握不全,所以没法给大家细致讲解每一个步骤究竟是怎样实现的,但是我们还是要掌握 大致的基本框架,这样才能为后面的学习打好基础。
接下来对翻译做个小总结:
- 组成一个程序的每个源文件通过编译过程(包括了预处理,编译,汇编)分别转换成目标代码(object code)。
- 每个目标文件由链接器( linker )捆绑在一起,形成一个单一而完整的可执行程序。
链接器同时也会引入标准 C 函数库中任何被该程序所用到的函数,而且它可以搜索程序员个人的程序库,将其需要的函数也链接到程序中
我们经常在程序中看见的 提示:无法解析的外部符号
上述错误产生的原因就是链接时符号表合并 并不能为add函数找到一个有效的地址。
1.2 执行环境
经过链接后程序就成为了可执行程序,这个时候程序在执行环境(运行环境)中执行就会产生代码的结果。
在程序执行的过程:
程序必须载入内存中。在有操作系统的环境中:一般这个由操作系统完成。在独立的环境中,程序的载入必须由手工安排,也可能是通过可执行代码置入只读内存来完成。
程序的执行便开始。接着便调用 main 函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈 (也就是函数栈帧),存储函数的局部变量和返回 地址。程序同时也可以使用静态( static )内存,存储于静态内中的变量在程序的整个执行过程 一直保留他们的值。
终止程序。正常终止 main 函数;也有可能是意外终止。
程序环境就先大致讲到这里,其实翻译环境和运行环境要项深入了解的知识量远不止这些,有兴趣的佬可以自己在《程序员的自我修养中》进行查阅。
2 预处理详解
2.1 预定义符号
__FILE__ //进行编译的源文件 __LINE__ //文件当前的行号 __DATE__ //文件被编译的日期 __TIME__ //文件被编译的时间 __STDC__ //如果编译器遵循ANSI C,其值为1,否则未定义
我们可以在VS上试试
另外,__STDC__ VS2022是不支持的。
2.2 #define
2.2.1 #define 定义标识符
语法: #define name stuff
相信这个大家都不陌生,举个栗子:
#define MAX 1000 #define reg register //为 register这个关键字,创建一个简短的名字 #define do_forever for(;;) //用更形象的符号来替换一种实现 #define CASE break;case //在写case语句的时候自动把 break写上。 // 如果定义的 stuff过长,可以分成几行写,除了最后一行外,每行的后面都加一个反斜杠(续行符)。 #define DEBUG_PRINT printf("file:%s\tline:%d\t \ date:%s\ttime:%s\n" ,\ __FILE__,__LINE__ , \ __DATE__,__TIME__ )
提个问题:在define定义标识符的时候,要不要在最后加上 ;?
答案肯定是不要加上,会引发一些问题,因为#define定义的标识符常量在预处理的时候会被替换,你加了;有可能语法会出错。
2.2.2 #define 定义宏
#define 机制包括了一个规定,允许把参数替换到文本中,这种实现通常称为宏(macro)或定义 宏(define macro)。
下面是宏的申明方式:
#define name( parament - list ) stuff
其中的 parament - list 是一个由逗号隔开的符号表,它们可能出现在stuff中。
注意:
- 参数列表的左括号必须与name紧邻。
- 如果两者之间有任何空白存在,参数列表就会被解释为stuff的一部分。
了解了宏的定义我们不妨来做个题来练练手吧:
大家认为下面的代码输出结果是什么?
#define MAX(x,y) x*y #include<stdio.h> int main() { int a = 10; int b = 20; printf("%d\n", MAX(a, b)); printf("%d\n", MAX(a+1, b+1)); return 0; }
答案是200,231吗?
为啥结果与我们预期的不符合呀?其实很好理解,当预处理后就变成了
a+1*b+1 由于乘法的优先级大于加法,所以会先算乘法,结果自然是31了
那么究竟该如何避免这种问题?
答案就是+()
这样就没有问题了,那么再问一下,最外面的括号能省略不写吗?
最好还是写上,虽然在本题中这个最外面的括号好像没有啥用,但是在有些情况下会出问题的。
2.2.3 #define 替换规则
在程序中扩展 #define 定义符号和宏时,需要涉及几个步骤:
- 在调用宏时,首先对参数进行检查,看看是否包含任何由 #define 定义的符号。如果是,它们首先被替换。
- 替换文本随后被插入到程序中原来文本的位置。对于宏,参数名被他们的值所替换。
- 最后,再次对结果文件进行扫描,看看它是否包含任何由 #define 定义的符号。如果是,就重复上 述处理过程。
注意:
1. 宏参数和 #define 定义中可以出现其他 #define 定义的符号。但是对于宏,不能出现递归。
2. 当预处理器搜索 #define 定义的符号的时候,字符串常量的内容并不被搜索。
2.2.4 #和##
这两个符号用的比较少,大家可以适当了解一下
# 的作用:
如何把参数插入到字符串中?
由于字符串是具有自动连接的特点的,所以我们可以通过上述方式实现;
但是我们想让把一个宏参数变成对应的字符串,应该怎么办呢?
我们可以用#处理:
代码中的 #VALUE 会预处理器处理为:"VALUE"
## 的作用:
##可以把位于它两边的符号合成一个符号。
它允许宏定义从分离的文本片段创建标识符。
注意:
这样的连接必须产生一个合法的标识符。否则其结果就是未定义的。
2.2.5 带副作用的宏参数
我们来看看一个题:
#define MAX(a, b) ( (a) > (b) ? (a) : (b) ) int main() { int x = 5; int y = 8; int z = MAX(x++, y++); printf("x=%d y=%d z=%d\n", x, y, z);//输出的结果是什么? return 0; }
我们在VS上运行来看看结果:
为什么结果是这样的?
我们把符号替换过去就知道了
(x++)>(y++)?(x++):(y++)
由于是后置++,所以先比较x与y的大小,得x<y 整个表达式得结果就是第三个表达式的结果;别忘了x与y还要分别++,此时x=6,y=9;然后执行第三个表达式,由于是前置++,所以第三个表达式的结果就是y,即z=9;最后别忘了y++,得到y=10.
2.2.6 宏和函数对比
宏通常被应用于执行简单的运算,比如在两个数中找出较大值:
#define MAX(a, b) ((a)>(b)?(a):(b))
那为什么不用函数来完成这个任务?
1. 用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。
所以宏比函数在程序的规模和速度方面更胜一筹 。
2. 更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。反之这个宏怎可以适用于整形、长整型、浮点型等可以用来比较的类型。宏是类型无关的 。
宏的缺点:当然和函数相比宏也有劣势的地方:
1. 每次使用宏的时候,一份宏定义的代码将插入到程序中。除非宏比较短,否则可能大幅度增加程序的长度。
2. 宏是没法调试的。
3. 宏由于类型无关,也就不够严谨。
4. 宏可能会带来运算符优先级的问题,导致程容易出现错。
宏有时候可以做函数做不到的事情。比如:宏的参数可以出现类型,但是函数做不到:
#define MALLOC(num, type)\ (type *)malloc(num * sizeof(type)) ... //使用 MALLOC(10, int);//类型作为参数 //预处理器替换之后: (int *)malloc(10 * sizeof(int));
宏和函数的一个对比 :
另外,大家可以去看看有关宏的题目:用宏将一个二进制位的奇数位与偶数位交换&&用宏模拟实现offsetof
2.2.7 命名约定
一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者,那我们平时的一个习惯是:
- 把宏名全部大写
- 函数名不要全部大写
2.3 #undef
这条指令用于移除一个宏定义。
#undef NAME //如果现存的一个名字需要被重新定义,那么它的旧名字首先要被移除。
2.4 命令行定义
许多 C 的编译器提供了一种能力,允许在命令行中定义符号。用于启动编译过程。
例如:当我们根据同一个源文件要编译出一个程序的不同版本的时候,这个特性有点用处。(假定某个程序中声明了一个某个长度的数组,如果机器内存有限,我们需要一个很小的数组,但是另外一个机器 内存大些,我们需要一个数组能够大些。)
#include <stdio.h> int main() { int array [ARRAY_SIZE]; int i = 0; for(i = 0; i< ARRAY_SIZE; i ++) { array[i] = i; } for(i = 0; i< ARRAY_SIZE; i ++) { printf("%d " ,array[i]); } printf("\n" ); return 0; }
VS2022中不好观察,大家可以在Linux平台下去观察,
命令为:gcc -D ARRAY_SIZE=10 programe.c