文件概念的引入
我们都知道程序的处理结果或计算结果会随着程序的运行结束而消失,且如果再次运行程序我们是看不到上次程序的数据的。此时我们就引入了文件的概念,因此我们将程序运行结束后仍需保存的数值和字符串等数据保存在文件。
那么到底什么是文件呢?
磁盘上的文件是文件。但是在程序设计中,我们⼀般谈的文件有两种:程序文件、数据文件(从文件功能的角度来分类的)。
- 程序文件: 包括源程序文件(后缀为.c),目标文件(windows环境后缀为.obj),可执行程序(windows环境后缀为.exe)。
- 数据文件: 文件的内容不⼀定是程序,而是程序运行时读写的数据,比如程序运行需要从中读取数据的文件,或者输出内容的文件。
本章讨论的是数据文件。在我以前文章中一些代码所处理数据的输入输出都是以终端为对象的,即从终端的键盘输入数据,运行结果显示到显示器上。其实有时候我们会把信息输出到磁盘上,当需要的时候再从磁盘上把数据读取到内存中使用,这里处理的就是磁盘上⽂件。
既然是文件,那就一定会有文件名,其命名规则如下:
文件名包含3部分:文件路径+文件名主干+文件后缀
例如: c:\c-language-learning\test.txt //.txt为文件后缀 //test为文件名主干 //其余为文件路径
一个文件要有⼀个唯⼀的文件标识,以便用户识别和引用。为了方便,文件标识常被称为文件名。
二进制文件和文本文件
根据数据的组织形式,数据文件被称为文本文件或者⼆进制文件。
两者间的区别:
数据在内存中以二进制的形式存储,如果不加转换的输出到外存,就是二进制文件。
如果要求在外存上以ASCII码的形式存储,则需要在存储前转换。以ASCII字符的形式存储的文件就是文本文件。
那么⼀个数据在内存中是怎么存储的呢?
字符:⼀律以ASCII形式存储,数值型数据:既可以用ASCII形式存储,也可以使用二进制形式存储。
如有整数10000,如果以ASCII码的形式输出到磁盘,则磁盘中占用5个字节(每个字符⼀个字节),而⼆进制形式输出,则在磁盘上只占4个字节(VS2019测试)。如下图:
因为字符'1'
的在ASCII
表中位于第49位,所以存00110001
,字符'0'
也是同样的道理。
文件的打开和关闭
流与标准流
我们程序的数据需要输出到各种外部设备,也需要从外部设备获取数据,不同的外部设备的输入输出操作各不相同,为了方便程序员对各种设备进行方便的操作,我们抽象出了流的概念,我们可以把流想象成流淌着字符的河。
C程序针对文件、画面、键盘等的数据输⼊输出操作都是同流操作的。⼀般情况下,我们要想向流里写数据,或者从流中读取数据,都是要打开流,然后操作。
事实上很多函数都使用了流,例如在初学c语言时我们学的printf
函数和scanf
函数,看下面一段代码:
int a; printf("HELLO"); scanf("%d",&a);
下面则为流和输入输出示意图:
printf
函数将字符'H' 'E' 'L' 'L' 'O'
输出到连接显示器的流(stdout)。而从键盘(stdin)输入的字符会进入流中,scanf
函数读取这些字符保存到变量a
中。
那为什么我们从键盘输入数据,向屏幕上输出数据,并没有打开流呢?那是因为C语言程序在启动的时候,默认打开了3个流:
- stdin - 标准输入流,在大多数环境中为从键盘输入。
scanf
,getchar
等函数会从此流中读取字符; - stdout - 标准输出流,在大多数环境中为输出到显示器界面。
printf
,putchar
等函数会向此流中写入字符。 - stderr - 标准错误流,用于写出错误的流,大多数输出到显示器界面。
文件指针
每个被使用的文件都在内存中开辟了⼀个相应的文件信息区,用来存放文件的相关信息(如文件的名字,文件状态及文件当前的位置等)。这些信息是保存在⼀个结构体变量中的。该结构体类型是由系统声明的,取名FILE
。
例如,VS2013编译环境提供的 <stdio.h>
头⽂件中有以下的⽂件类型申明:
struct _iobuf { char *_ptr; int _cnt; char *_base; int _flag; int _file; int _charbuf; int _bufsiz; char *_tmpfname; }; typedef struct _iobuf FILE;
不同的C编译器的FILE类型包含的内容不完全相同,但是大同小异。
FILE* pf;
定义pf是⼀个指向FILE
类型数据的指针变量。可以使pf
指向某个文件的文件信息区(是⼀个结构体变量)。通过该文件信息区中的信息就能够访问该文件。也就是说,通过文件指针变量能够间接找到与它关联的文件。其中也包含如下数据:
- 文件位置指示符:记录文件当前访问位置;
- 错误指示符:记录是否发生了读取错误或访问错误,一般由
ferror
检测; - 文件结束指示符:记录是否已到达文件末尾,一般由
feof
检测。
文件的打开和关闭
我们平时想要记笔记时,总是先打开笔记本,然后翻到适当的页数开始书写,最后用完了再合上笔记本。
程序中的文件操作也同样如此,首先是打开想要的文件,然后找到要读取或写入的目标位置进行读写操作,最后再关闭文件。
其中用来打开文件的函数是fopen,关闭文件的函数是fclose。fopen函数的第一个参数(即filename)是想要打开文件的文件名,第二个参数(即mode)是指打开文件的模式,当打开操作失败时,则会返回空指针,所以每当我们打开一个文件时都要进行打开成功与否的检测。fclose只有一个参数为指向要关闭文件的文件指针,若成功的关闭流则返回0,检测到错误是返回EOF,在关闭后,为了防止误操作,我们还需将文件指针置为空。函数原型如下:
//打开文件 FILE * fopen ( const char * filename, const char * mode ); //关闭文件 int fclose ( FILE * stream );
关于文件的打开模式,列举如下:
文件打开方式 | 含义 | 如果指定文件不存在 |
“r”(只读) | 为了输⼊数据,打开一个已经存在的文本文件 | 出错 |
“w”(只写) | 为了输出数据,打开一个文本文件 | 建立一个新的文件 |
“a”(追加) | 向⽂本文件尾添加数据 | 建立一个新的文件 |
“rb”(只读) | 为了输入数据,打开一个二进制文件 | 出错 |
“wb”(只写) | 为了输出数据,打开一个二进制文件 | 建立一个新的文件 |
“ab”(追加) | 向⼀个二进制⽂件尾添加数据 | 建立一个新的文件 |
“r+”(读写) | 为了读和写,打开一个文本文件 | 出错 |
“w+”(读写) | 为了读和写,建议⼀个新的文件 | 建⽴⼀个新的文件 |
“a+”(读写) | 打开⼀个⽂件,在⽂件尾进行读写 | 建立一个新的文件 |
“rb+”(读写) | 为了读和写打开⼀个二进制文件 | 出错 |
“wb+”(读写) | 为了读和写,新建⼀个新的二进制文件 | 建立⼀个新的文件 |
“ab+”(读写) | 打开⼀个二进制文件,在文件尾进行读和写 | 建立⼀个新的文件 |
还有一点需要注意的是,含"w"的编写模式,若文件已存在则会将文件长度清为0;含"a"的编写模式,若文件已存在,会从文件末尾处开始写入,且在此状态fseek
函数的调用会被忽略。
以更新模式(第二或第三个字符为"+")打开文件相关联的流,可以进行输入和输出操作。但在进行输出操作后再进行输入操作,必须在两次操作间调用文件定位函数(如fseek
,fsetpos
,rewind
)。输入操作后再进行输出操作也是如此,除非输入操作检测到了文件的末尾。