【操作系统】文件管理-阿里云开发者社区

一、文件管理

1、文件管理概述

文件的定义：一组有意义的信息的集合

文件的属性：文件名、标识符、类型、位置、大小、保护信息

2、文件的逻辑结构

逻辑结构：指在用户看来，文件内部的数据应该是如何组织起来的。

物理结构：指的是在操作系统看来，文件的数据是如何存放在外存中的。

无结构文件：文件内部的数据就是一系列二进制流或字符流组成。如txt

文件内部的数据其实就是一系列字符流，没有明显的结构特性

1）顺序文件

串结构：记录顺序与关键字无关

顺序结构：记录按关键字顺序排列

可变长记录的顺序文件无法实现随机存取，定长记录可以（可变长记录的顺序文件在每
次查询时只能从头依次查找）

定长记录、顺序结构的顺序文件可以快速检索（根据关键字快速找到记录）

缺点：不方便增加、删除记录

2）索引文件

建立一张索引表，每个记录对应一个表项。各记录不用保持顺序，方便增加/删除记录

索引表本身就是定长记录的质顺序文件，一个索引表项就是一条定长记录，因此索引文件可支持随机存取

若索引表按关键字顺序排列，则可支持快速检索

解决了顺序文件不方便增、删记录的问题，同时让不定长记录的文件实现了随机存取。但索引表可能占用很多空间

3）索引顺序文件

将记录分组，每组对应一个索引表项

检索记录时先顺序查索引表，找到分组，再顺序查找分组

当记录过多时，可建立多级素引表

3、文件目录

1）文件目录的实现

一个文件对应一个FCB（目录项），多个FCB组成文件目录

图中的每一条数据即为一个FCB

2）目录结构

1. 单级目录结构

一个系统只有一张目录表，不允许文件重名

2. 两级目录结构

主文件目录（MFD）和用户文件目录（UFD）。不同用户有不同的目录表

不同用户的文件可以重名，但不能自己创建目录

3. 树形目录结构

不同文件下的目录可以重名，可以自己创建目录进行分类

系统根据文件路径找到目标文件

不方便文件共享

绝对路径：从根目录出发的路径

相对路径：从当前目录出发的路径

相对路径检索文件可以减少磁盘IO次数

4. 无环图目录结构

在树形目录结构的基础上，增加一些指向同一节点的有向边，使整个目录成为一个有向无环图

为共享结点设置一个共享计数器，计数器为0时才真正删除该结点

3）索引节点

除了文件名之外的所有信息都放到索引结点中，每个文件对应一个索引节点

目录项中只包含文件名、索引结点指针，因此每个目录项的长度大幅减少

由于目录项长度减小，因此每个磁盘块可以存放更多个目录项，提高了检索效率

4、文件保护

1）口令保护

为文件设置一个“口令"，用户想要访问文件时需要提供口令，由系统验证口令是否正确

实现开销小，但"口令"一般存放在FCB或索引结点中（存放在系统中），因此不太安全

2）加密保护

用一个"密码"对文件加密，用户想要访问文件时，需要提供相同的“密码〞才能正确的解密

安全性高，但加密/解密需要耗费一定的时间

3）访问控制

用一个访问控制表（ACL）记录各个用户或各组用户对文件的访问权限

对文件的访问类型可以分为：读/写/执行/删除等

实现灵活，可以实现复杂的文件保护功能

5、文件共享

1）硬连接

硬连接：基于索引结点的共享

各个用户的目录项指向同一个索引结点

索引结点中需要有链接计数 count

某用户想删除文件时，只是删除该用户的目录项，且count--

只有count ==0时才能真正删除文件数据和索引结点，否则会导致指针悬空

2）软连接

软连接：基于符号链的共享

在一个 Link 型的文件中记录共享文件的存放路径（Windows 快捷方式）

操作系统根据路径一层层查找目录，最终找到共享文件

即使软链接指向的共享文件已被刷除，Link 型文件依然存在，只是通过 Link 型文件中的路径去查找共享文件会失败（找不到对应目录项）

由于用软链接的方式访问共享文件时要查询多级目录，会有多次磁盘IO，因此用软链接访问共享文件的速度要比硬链接更慢

二、文件

1、文件实现

类似于内存分页，磁盘中的存储单元也会被分为一个个“块/磁盘块/物理块”。

磁盘块的大小与内存块、页面的大小相同

内存与磁盘之间的数据交换都是以“块”为单位进行的。即每次读入一块，或每次写出一块

2、文件分配方式

1）连续分配

连续分配方式要求每个文件在磁盘上占有一组连续的块。

物理块号 = 起始块号 + 逻辑块号

连续分配支持顺序访问和直接访问（即随机访问）

2）隐式链接分配

缺点：只支持顺序访问，不支持随机访问，查找效率低。指向下一个盘块的指针也需要耗费少量的存储空间。

优点：不会有碎片问题，外存利用率高。方便文件拓展。

3）显式链接分配

把用于链接文件各物理块的指针显式地存放在一张表中。即文件分配表（FAT）

一个磁盘仅设置一张FAT。开机时，将FAT读入内存，并常驻内存。

优点：很方便文件拓展，不会有碎片问题，外存利用率高，并且支持随机访问。相比于隐式链接来说，地址转换时不需要访问磁盘，因此文件的访问效率更高。

缺点：文件分配表的需要占用一定的存储空间

4）索引分配

1. 链接方案

如果索引表太大，一个索引块装不下，那么可以将多个索引块链接起来存放。

2. 多层索引

建立多层索引（原理类似于多级页表）

若采用多层索引，则各层索引表大小不能超过一个磁盘块

采用K层索引结构，且顶级页级索引表未调入内存，则访问一个数据块需要K+1次读磁盘操作

3. 混合索引

多种索引分配方式的结合

5）总结

分配方式	How	目录项内容	优点	缺点
顺序分配	为文件分配的必须是连续的磁盘块	起始块号、文件长度	顺序存取速度快，支持随机访问	会产生碎片，不利于文件拓展
隐式链接分配	除文件的最后一个盘块之外，每个盘块中都存有指向下一个盘块的指针	起始块号、结束块号	可解决碎片问题，外存利用率高，文件拓展实现方便	只能顺序访问，不能随机访问
显式链接分配	建立一张文件分配表(FAT)，显式记录盘块的先后关系（开机后FAT常驻内存）	起始块号	除了拥有隐式链接的优点之外，还可通过查询内存中的FAT实现随机访问	FAT需要占用一定的存储空间
索引分配	为文件数据块建立索引表。若文件太大，可采用链接方案、多层索引、混合索引	链接方案记录的是第一个索引块的块号，多层/混合索引记录的是顶级索引块的块号	支持随机访问，易于实现文件的拓展	索引表需占用一定的存储空间。访问数据块前需要先读入索引块。若采用链接方案，查找索引块时可能需要很多次读磁盘操作。

3、逻辑结构和物理结构

1）逻辑结构

用户（文件创建者）的视角看到的样子

在用户看来，整个文件占用连续的逻辑地址空间

文件内部的信息组织完全由用户自己决定，操作系统井不关心

2）物理结构

由操作系统决定文件采用什么物理结构存储

操作系统负责将逻辑地址转变为（逻辑块号：块内偏移量）的形式，并负责实现逻辑块号到物理块号的映射

4、文件存储空间管理

1）存储空间的划分与初始化

存储空间的初始化：将各个文件卷划分为目录区、文件区

目录区包含文件目录、空闲表、位示图、超级块等用于文件管理的数据

文件区用于存放文件数据

2）空闲表法

为一个文件分配连续的存储空间。

可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个区间。

回收时注意表项的合并问题

3）空闲链表法

空闲盘块链：以盘块为单位组成一条空闲链。分配时从链头依次取出空闲块，回收时将空闲块查到链尾。

空闲盘区链：以盘区为单位组成一条空闲链。分配时可采用首次适应、最佳适应等策略，回收时注意相邻空闲盘区合并的问题。

4）位示图法

位示图：每个二进制位对应一个盘块。可以用（字号，位号）对应一个盘块号。

注意题目条件：盘块号、字号、位号到底是从0开始还是从1开始

(字号, 位号)=(i, j) 的二进制位对应的盘块号 b = ni + j

b号盘块对应的字号 i = b/n，位号 j = b%n

5）成组链接法

UNIX 采用的策略，适合大型文件系统。

理解即可，不方便用文字描述的知识点也很难作为考题

咸鱼学长这里讲的比较一般，参考【天勤考研】成组链接法

分组：

1号块为超级块，超级块需要调入内存

1块的空间用完之后，将2块调入内存

5、文件基本操作

创建文件：分配外存空间，创建目录项

删除文件：回收外存空间，删除目录项

打开文件：

将目录项中的信息复制到内存中的打开文件表中，并将打开文件表的索引号（文件描述符）返回给用户
打开文件之后，对文件的操作不再需要每次都查询目录，可以根据内存中的打开文件表进行操作
每个进程有自己的打开文件表，系统中也有一张总的打开文件表
进程打开文件表中特有的属性：读写指针、访问权限（只读？读写？）
系统打开文件表中特有的属性：打开计数器（有多少个进程打开了该文件）

关闭文件：

将进程打开文件表中的相应表项删除
系统打开文件表的打开计数器减1，若打开计数器为0，则别除系统表的表项

读文件：根据读指针、读入数据量、内存位置将文件数据从外存读入内存

写文件：根据写指针、写出数据量、内存位置将文件数据从内存写出外存

6、文件系统的层次结构

用一个例子来辅助记忆文件系统的层次结构：

假设某用户请求删除文件 “D:/工作目录/学生信息.xlsx” 的最后100条记录。

用户需要通过操作系统提供的接口发出上述请求——用户接口
由于用户提供的是文件的存放路径，因此需要操作系统一层一层地查找目录，找到对应的目录项——文件目录系统
不同的用户对文件有不同的操作权限，因此为了保证安全，需要检查用户是否有访问权限——存取控制模块（存取控制验证层）
验证了用户的访问权限之后，需要把用户提供的“记录号”转变为对应的逻辑地址——逻辑文件系统与文件信息缓冲区
知道了目标记录对应的逻辑地址后，还需要转换成实际的物理地址——物理文件系统
要删除这条记录，必定要对磁盘设备发出请求——设备管理程序模块
删除这些记录后，会有一些盘块空闲，因此要将这些空闲盘块回收——辅助分配模块

三、磁盘

1、磁盘的结构

1）磁盘、磁道、扇区

磁盘由表面涂有磁性物质的圆形盘片组成

每个盘片被划分为一个个磁道，每个磁道又划分为一个个扇区

最内侧磁道上的扇区面积最小，因此数据密度最大

2）如何在磁盘中读/写数据

磁头移动到目标位置，磁片旋转，对应扇区划过磁道才能完成读写

3）盘面、柱面的概念

磁盘有多个盘片“摞”起来，每个盘片有两个盘面

所有盘面中相对位置相同的磁道组成柱面

4）磁盘的物理地址

（柱面号，盘面号，扇区号）

5）磁盘的分类

根据磁头是否可移动：固定头磁盘（每个磁道有一个磁头）、移动头磁盘（每个盘面只有一个磁头）

根据盘片是否可更换：固定盘磁盘、可换盘磁盘

2、磁盘调度算法

1）一次读写的时间

寻道时间：启动磁臂、移动磁头所花的时间

① 启动磁头臂是需要时间的。假设耗时为 s；

② 移动磁头也是需要时间的。假设磁头匀速移动，每跨越一个磁道耗时为 m，总共需要跨越 n 条磁道。

则寻道时间 TS = s + m * n

延迟时间：将目标扇区转到磁头下面所花的时间

设磁盘转速为 r （单位：转/秒，或转/分）

则平均所需的延迟时间 TR = (1/2) * (1/r) = 1/(2r)

传输时间：读/写数据花费的时间

假设磁盘转速为 r，此次读/写的字节数为 b，每个磁道上的字节数为 N

传输时间Tt = (1/r) * (b/N) = b/(rN)

2）先来先服务（FCFS）

按访问请求到达的先后顺序进行处理

优点：公平；如果请求访问的磁道比较集中的话，算法性能还算过的去

缺点：如果有大量进程竞争使用磁盘，请求访问的磁道很分散，则FCFS在性能上很差，寻道时间长。

3）最短寻找时间优先（SSTF）

按访问请求到达的先后顺序进行处理

贪心算法的思想，能保证眼前最优，但无法保证总的寻道时间最短

优点：性能较好，平均寻道时间短

缺点：可能导致饥饿

4）扫描算法（电梯算法、SCAN）

只有磁头移动到最边缘的磁道时才可以改变磁头移动方向

缺点：对各个位置磁道的响应频率不平均

5）循环扫描算法（C-SCAN）

只有磁头朝某个方向移动时才会响应请求，移动到边缘后立即让磁头返回起点，返回途中不响应任何请求

6）LOOK算法

SCAN 算法的改进，只要在磁头移动方向上不再有请求，就立即改变磁头方向

7）C-LOOK 算法

C-SCAN 算法的改进，只要在磁头移动方向上不再有请求，就立即让磁头返回

3、减少延迟时间的优化

1）交替编号

磁头读入一个扇区数据后需要一小段时间处理，如果逻辑上相邻的扇区在物理上也相邻，则读入几个连续的逻辑扇区，可能需要很长的“延迟时间”

具体做法：让编号相邻的扇区在物理上不相邻

原理：读取完一个扇区后需要一段时间处理才可以继续读入下一个扇区

2）错位命名

具体做法：让相邻盘面的扇区编号"错位"

原理：与"交替编号"的原理相同。"错位命名法”可降低延迟时间

3）磁盘地址结构的设计

磁盘的物理地址是（柱面号，盘面号，扇区号）

在读取地址连续的磁盘块时，不需要移动磁头

4、磁盘的管理

1）磁盘初始化

低级格式化/物理格式化：划分扇区
磁盘分区（C盘、D盘、E盘）
逻辑格式化：建立文件系统（建立根目录文件、建立用于存储空问管理的数据结构）

2）引导块

计算机启动时需要运行初始化程序（自举程序）来完成初始化

ROM中存放很小的自举装入程序

完整的自举程序存放在初始块（引导块）中

3）坏块的管理

简单的磁盘：逻辑格式化时将坏块标记出来（坏块对操作系统不透明）

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【操作系统】文件管理