程序环境和预处理（详解）-阿里云开发者社区

前言

作者：小蜗牛向前冲

名言：我可以接收失败，但我不能接收放弃

如果觉的博主的文章还不错的话，还请点赞，收藏，关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正。

为了更好的理解编程，在下面的博课中我们重点聊聊程序环境和预处理。

一程序的翻译环境和执行环境

在ANSI C的任何一种实现中，存在两个不同的环境。

第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令。

第2种是执行环境，它用于实际执行代码。

二详解编译+链接

1 翻译环境

组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）。

每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序。

链接器同时也会引入标准C函数库中任何被该程序所用到的函数，而且它可以搜索程序员个人的程序库，将其需要的函数也链接到程序中。

2 程序编译的过程

我们在翻译环境中简单的介绍了程序的编译过程是由链接器和目标文共同作用生成可执行程序，但目标文件有是如何生成的呢?在链接过程中做了什么呢？

下面我们来看一张图：

从图在我们可以看出可执行程序的生成是经过编译和链接的。下面我们和大家一起看看编译过程中做了什么，链接又是个怎么回事。

预处理

要想生成可执行程序，进行编译中的预处理是必不可少的，那什么又是干了什么呢？

其实在预处理的过程中是将test.c文件的内容经过处理重新放在了，test.i文件中。

test.i文件的部分操作

1 将test.c文件中包含#include的库内容放在test.i中。

2 将#define定义的符号替换,删除定义的注释。

其实在预处理的过程中主要进行的是文件操作。

编译

在该过程中主要是进行C语言的代码转换为汇编代码。

在转换的过程中主要是进行C语言代码的：语法分析，词法分析，符号汇总，语意分析等操作。

同时这时也会生成一个test.s文件记录当前的更改。

汇编

在该过程中主要是将汇编代码转化为二进制的指令，形式符号表,生成了可重新定位的目标文件test.o。

什么又是符号表呢？下面我们通过这个代码简单理解一下。

#define  _CRT_SECURE_NO_WARNINGS
 
#include<stdio.h>
 
int Add(int x, int y)
{
  return x + y;
}
 
int main()
{
  int a = 5;
  int b = 10;
  Add(a,b);
  return 0;
}

其实就是存放函数的地址。

符号表的作用

链接的时候，链接器会去符号表查找引用的符号是否存在。

对于常量，编译器会向符号表查找const的值，直接替换。

链接

在这里我们进行的是合并段表和符号表的合并和符号表的重新定位。

其实和并段表是将代码编译生成的a.out会包含很多段，数据段文本段bss段等等，这些段是合并出来的，在编译过程中划分出来出来的，不同的数据会对应到不同的段中，在.o文件中其实已经发生了分段。

符号表的合并和符号表的重定位主是将程序中函数的地址(除去函数声明的函数无效地址)合在一张符号表中，在对他们进行重定位，链接接完成以后，也就生成了我们所说的.exe文件重点内容。

3 运行环境

1. 程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。

2. 程序的执行便开始。接着便调用main函数。

3. 开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。

4. 终止程序。正常终止main函数；也有可能是意外终止。

三预处理详解

刚刚我们简单的了解了预处理，下面我们进一步了解。

1 预定义符号

_FILE_//经行编译的源文件
_LTNE_//文件当前行号
_DATE_//文件被编译的日期
_TIME_//文件被编译的时间
_STDC_//如果编译器遵循ANSI C，其值为1，否则未定义

这些预定义符号都是语言内置的，我们在一定情况下可以使用他们如：

这时我们可以看到屏幕中打印了文件在目录的那个位置，和行号。

2 #define

#define 定义标识符

语法：

#define name stuff

#define MAX 100//定义最大值为100
#define MIN 0//定义最小值为0

这里我们要注意

用#define定义表示标识符时，不要加上分号，因为在预处理阶段会对代码中的标识符经行替换会将分号替换进去，这样就有可能导致语法错误。

#define 定义宏

#define 机制包括了一个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或定义宏（define macro）。

下面是宏的申明方式：

#define name(参数) 表达式

注意：

1参数左括号的必须于name相邻

2如果两者之间有任何空白存在，参数列表就会被解释为表达式的一部分。

下面我们通过代码来认识宏：

//定义宏
#define SUM(s) s+s
int main()
{
  int a = 0;
  scanf("%d", &a);
  printf("%d\n", SUM(a));
  return 0;
}

这个宏的作用就是求和

虽然上面求和成功了，但这样书写宏真的没问题吗？下面对代码做一个小改动：

//定义宏
#define SUM(s) s+s
int main()
{
  int a = 0;
  scanf("%d", &a);
  int ret = 3 * SUM(a);
  printf("%d\n", ret);
  return 0;
}

下面的结果又是上面呢？有的人可能怎么算，当a=4时，他们认为这个宏是求和的，会先算4+4=8,在3*8=24，但结果真的是24 吗？

为什么是16呢？这就不得不会到宏的作用了，允许把参数替换到文本中，这种实现通常称为宏。其实下面这段代码相对于：

所以为避免由操作符引起的优先级运算引起的错误，我们可以怎么做：

#define SUM(s) ((s)+(s))

以用于对数值表达式进行求值的宏定义都应该用这种方式加上括号，避免在使用宏时由于参数中的操作符或邻近操作符之间不可预料的相互作用。

#define 替换规则

1. 在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。

2. 替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值所替换。

3. 最后，再次对结果文件进行扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。

注意：

1. 宏参数和#define 定义中可以出现其他#define定义的符号。但是对于宏不能出现递归。

2. 当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

#和##

在又是上什么？又什么用，下面我们来看一段代码：

int main()
{
  int i = 10;
#define PRINT(FORMAT, VALUE)  printf("the value of " #VALUE "is "FORMAT "\n", VALUE)
    PRINT("%d", i + 3); 
  return 0;
}

这里的#号又是什么意思呢？其实是使用 # ，把一个宏参数变成对应的字符串。

下面我们来看到##。

## 的作用

##可以把位于它两边的符号合成一个符号。

它允许宏定义从分离的文本片段创建标识符。

我们写个代码来理解一下：

#define ADD(num,n) num##n
 
int main()
{
  int num1 = 55;
  printf("%d\n", ADD(num, 1));
  return 0;
}

这里可看出##把num和连接成num1了。

带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。

下面通过代码来理解一下吧：

#define MAX(m,n) (m)>(n)?(m):(n)
int main()
{
  //int m = MAX(2, 3);
  int m = 5;
  int n = 4;
  int max = MAX(m++, n++);
  printf("%d\n", max);
  printf("%d %d", m, n);
  return 0;
}

我们知道其实在处理器认为max=( (m++) > (n++) ? (m++) : (n++));所以，得到了6，从中我们可以看出，当我们在宏中使用++或者--操作符时，是有副作用的。

宏和函数对比

有的人说对于求max我们封装一个函数来求不就可以了，为什么要用宏呢？

原因有二:

1. 用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。 所以宏比函数在程序的规模和速度方面更胜一筹。

2. 更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。反之这个宏怎可以适用于整形、长整型、浮点型等可以用于>来比较的类型。 宏是类型无关的。

那么我们可以用宏完全替代函数吗？其实不然，宏也会有自己的不足之处。

宏的缺点

1. 每次使用宏的时候，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。

2. 宏是没法调试的。

3. 宏由于类型无关，也就不够严谨。

4. 宏可能会带来运算符优先级的问题，导致程容易出现错。

宏有时候可以做函数做不到的事情。比如：宏的参数可以出现类型，但是函数做不到。

#define MALLOC(num,type) (type*)malloc(num*sizeof(type))
int main()
{
  //使用宏
  int* p = MALLOC(10, int);//开辟了40个字节的空间
  //判断空间是否开辟完成
  if (p == NULL)
  {
    preeor(p);
  }
  //使用
  //释放
  free(p);
  p = NULL;
  return 0;
}

宏和函数的一个对比

属性	#define定义宏	函数
代码长度	每次使用时，宏代码都会被插入到程序中。除了非常小的宏之外，程序的长度会大幅度增长	函数代码只出现于一个地方；每次使用这个函数时，都调用那个地方的同一份代码
执行速度	更快	存在函数的调用和返回的额外开销，所以相对慢一些
操作符优先级	宏参数的求值是在所有周围表达式的上下文环境里，除非加上括号，否则邻近操作符的优先级可能会产生不可预料的后果，所以建议宏在书写的时候多些括号。	函数参数只在函数调用的时候求值一次，它的结果值传递给函数。表达式的求值结果更容易预测
带有副作用的参数	参数可能被替换到宏体中的多个位置，所以带有副作用的参数求值可能会产生不可预料的结果。	函数参数只在传参的时候求值一次，结果更容易控制。
参数类型	宏的参数与类型无关，只要对参数的操作是合法的，它就可以使用于任何参数类型。	函数的参数是与类型有关的，如果参数的类型不同，就需要不同的函数，即使他们执行的任务是不同的。
调试	宏是不方便调试的	函数是可以逐语句调试的
递归	宏是不能递归的	函数是可以递归的

显示详细信息

命名约定

一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者。那我们平时的一个习惯是：

把宏名全部大写

函数名不要全部大写

那么有时候我们不想使用宏其可以用#undef去移除宏。

3 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的。因为我们有条件编译指令。

比如说：

调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译。

当我们把#defie_name注释掉，这样条件编译就不成立，就不会打印数组.

常见的条件编译指令

1.
#if 常量表达式
 //...
#endif
//常量表达式由预处理器求值。
如：
#define __DEBUG__ 1
#if __DEBUG__
 //..
#endif
2.多个分支的条件编译
#if 常量表达式
 //...
#elif 常量表达式
 //...
#else
 //...
#endif
3.判断是否被定义
#if defined(symbol)
#ifdef symbol
#if !defined(symbol)
#ifndef symbol
4.嵌套指令
#if defined(OS_UNIX)
 #ifdef OPTION1
 unix_version_option1();
 #endif
 #ifdef OPTION2
 unix_version_option2();
 #endif
#elif defined(OS_MSDOS)
 #ifdef OPTION2
 msdos_version_option2();
 #endif
#endi

4 文件包含

我们已经知道， #include 指令可以使另外一个文件被编译。就像它实际出现于 #include 指令的地方一样。

这种替换的方式很简单：

预处理器先删除这条指令，并用包含文件的内容替换。

这样一个源文件被包含10次，那就实际被编译10次。

头文件被包含的方式

1 本地文件包含（#include "add"）

查找策略：先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在标准位置查找头文件。如果找不到就提示编译错误。

2 库文件包含 (#include )

查找头文件直接去标准路径下去查找，如果找不到就提示编译错误。

其实对于库文件也可以使用 “” 的形式包含，但是这样做查找的效率就低些，当然这样也不容易区分是库文件还是本地文件了。

嵌套文件包含

comm.h和comm.c是公共模块。

test1.h和test1.c使用了公共模块。

test2.h和test2.c使用了公共模块。

test.h和test.c使用了test1模块和test2模块。

这样最终程序中就会出现两份comm.h的内容。这样就造成了文件内容的重复。

那我们又改如何解决这些问题题呢？其实我们就可以用我们刚刚学的条件编译去解决这个问题。

每个头文件的开头写：

#ifndef __TEST_H__
#define __TEST_H__
//头文件的内容
#endif   //__TEST_H__

或者

#pragma once

这样我们就能避免头文件的重复引用。

大家觉的有用的话就三连支持一下博主吧！

程序环境和预处理（详解）

一程序的翻译环境和执行环境

二详解编译+链接

1 翻译环境

2 程序编译的过程

三预处理详解

1 预定义符号

2 #define

3 条件编译

4 文件包含

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

程序环境和预处理（详解）

一 程序的翻译环境和执行环境

二 详解编译+链接

1 翻译环境

2 程序编译的过程

三 预处理详解

1 预定义符号

2 #define

3 条件编译

4 文件包含

热门文章

最新文章

相关电子书

一程序的翻译环境和执行环境

二详解编译+链接

三预处理详解