一、存储设备分区简述
文件系统最终目的是把大量数据有组织的放入持久性的存储设备,如硬盘。硬盘存储能力具有持久性,不会因为断电而消失,存储量大,但读取速度慢。操作系统读取硬盘的时候,不会一个一个扇区读取,效率太低,而是一次性连续读取多个扇区,即一次性读取一个“块”。这种由扇区组成的块,是文件存取的最小单位,块最常见的是4KB,即连续的8个sector组成一个block。文件数据都存储在块中,那么显然必须找到一个地方存储文件的元信息,比如文件的创建者、创建日期、文件大小等等。这种存储文件元信息的区域就叫做inode,中文译名为“索引节点”。
硬盘最开始的区域是MBR,用于Linux开机启动。剩余空间可分成若干分区。每个分区有一个相关的分区表,记录分区的相关信息,这个分区表是存储在分区之外的,分区表说明了对应分区的起始位置和分区的大小。
1、分区的第一个部分是启动分区(Boot Block),它主要是为计算机开机服务的。Linux开机启动后,会首先载入MBR,随后MBR从某个硬盘的启动区加载程序。该程序负责进一步的操作系统的加载和启动。为了方便管理,即使某个分区中没有安装操作系统,Linux也会在该分区预留启动区。
2、启动区之后的是超级区,它存储有文件系统的相关信息,包括文件系统的类型,inode的数目,数据块的数目;貌似一个inode位图和block位图,用一些空间的二进制来表示inode和block的使用情况,1表示使用过,0表示未使用,快速定位,具体怎么存储不知道。
3、随后是多个inodes,它们是实现文件存储的关键。在Linux系统中,一个文件可以分成几个数据块存储,每个文件对应一个inode,这个inode中包含多个指针,指向属于该文件的各个数据块。当操作系统需要读取文件时,就根据inode指向的数据块进行读取。
4、最后一部分,就是真正存储数据的数据块了。
二、iNode节点
在Linux文件管理中,文件除了自身数据之外,还有附属信息,即文件的元数据;这个元数据用于记录文件的许多信息,比如文件大小,属主,属组,修改日期等等。元数据并不包含在文件数据中,由系统维护,也就是包含在inode中。每个inode有一个唯一的整数编号表示(inode number)。
三、inode的内容
inode包含文件的元信息,具体来说具有以下内容:
**文件的字节数
**文件拥有者的UID
**文件的组ID
**文件的读、写、执行权限
**文件的时间戳,共有三个:ctime指inode创建时间,mtime文件内容上一次修改时间,atime指文件最后一次访问的时间。
**链接数,即有多少个文件名指向这个inode
**文件数据块block的位置
可以使用stat命令,查看某个文件的inode信息:stat example.txt
总之,除了文件名以外的所有文件信息,都存在inode之中。至于为什么没有文件名,下文会有详细解释。
四、inode大小
inode也会消耗硬盘空间,所以硬盘格式化的时候,系统自动将硬盘分成2个区域;一个是数据区,存放文件数据,另一个是inode区,存放inode所包含的信息。每个inode节点大小一般是128字节。inode节点的总数,在格式化时就给定,一般是每1KB或2KB就设置一个inode,此数值不确实是不是正确。
查看每个硬盘分区的inode总数和已使用的数量,可以使用df命令:df –i
查看每个inode节点的大小,可以用如下命令:dumpe2fs –h /dev/hda | grep “Inode size”
由于每个文件都必须有inode,因此有可能发生inode已经用光,但是硬盘还未存满的情况,这时就无法在硬盘上创建新文件。
五、inode号码
每个inode都有一个号码,操作系统用inode号码来识别不同的文件。Linux系统内部不使用文件名,而使用inode号码来识别文件。对于系统来说,文件名只是inode号码便于识别的别称或绰号。表面上用户通过文件名打开文件,实际上系统内部过程分三步:首先系统找到这个文件名对应的inode号码;其次通过inode号获取inode信息;最后根据inode信息找到文件数据所在的block,读出数据。
使用ls -i命令,可以看到文件名对应的inode号:
ls –i example.txt
六、目录文件
Linux系统中,目录也是一种文件。打开目录,实际上就是打开目录文件。目录文件的结构非常简单,就是一系列目录项的列表。每个目录项由2部分组成:所包含文件的文件名和文件对应的inode号码。
ls命令只能列出目录文件中的所有文件名:ls /etc/
-i可以列出整个目录文件,即文件名和inode号码:ls –i /etc
如果要查看文件的详细信息,就必须根据inode号码,访问inode节点,读取信息。
举例:文件系统查找文件/var/log/message的过程
首先确定/目录文件的数据块,事实上/目录是由系统决定在哪里存储的,我们不用关心太多;读取/目录文件,找到var的文件名,找到对应的inode号,根据var的inode号查找到inode节点,从inode节点中读取var的block,得知var是个目录文件;打开var目录文件,查找到名称为log的文件名,找出log对应的inode号,查询inode对应的inode节点,通过inode节点找到log的block,读取log的block,发现log是个目录文件;打开log目录文件,查找到名称message文件名,找出message对应的inode号,查询inode对应的inode节点,通过inode节点找到message的block,即找到了message文件;由此可以看到操作系统经过了哪些曲折的步骤。
七、硬链接
一般情况下,文件名和inode号码是"一一对应"关系,每个inode号码对应一个文件名。但是,Unix/Linux系统允许,多个文件名指向同一个inode号码。这意味着,可以用不同的文件名访问同样的内容;对文件内容进行修改,会影响到所有文件名;但是,删除一个文件名,不影响另一个文件名的访问。这种情况就被称为"硬链接"(hard link)。
ln命令可以创建硬链接:ln 源文件 目标文件
运行上面这条命令以后,源文件与目标文件的inode号码相同,都指向同一个inode。inode信息中有一项叫做"链接数",记录指向该inode的文件名总数,这时就会增加1。反过来,删除一个文件名,就会使得inode节点中的"链接数"减1。当这个值减到0,表明没有文件名指向这个inode,系统就会回收这个inode号码,以及其所对应block区域。删除一个文件本质上就是去删除这个文件的硬链接。
顺便说一下目录文件的链接数。目录文件是不可以通过ln命令来创建硬链接的,但是目录文件本身却有硬链接,且至少2个硬链接数。创建目录时,默认会生成两个目录项:"."和".."。前者的inode号码就是当前目录的inode号码,等同于当前目录的"硬链接";后者的inode号码就是当前目录的父目录的inode号码,等同于父目录的"硬链接"。所以,任何一个目录的"硬链接"总数,总是等于2加上它的子目录总数(含隐藏目录),这里的2是原目录对其的“硬链接”和当前目录下的".硬链接“。
八、软连接
除了硬链接以外,还有一种特殊情况。文件A和文件B的inode号码虽然不一样,但是文件A的内容是文件B的路径。读取文件A时,系统会自动将访问者导向文件B。因此,无论打开哪一个文件,最终读取的都是文件B。这时,文件A就称为文件B的"软链接"(soft link)或者"符号链接(symbolic link)。
这意味着,文件A依赖于文件B而存在,如果删除了文件B,打开文件A就会报错:"No such file or directory"。这是软链接与硬链接最大的不同:文件A指向文件B的文件名,而不是文件B的inode号码,文件B的inode"链接数"不会因此发生变化。创建软连接时会增加一个inode节点,而硬链接不会。
其它区别:
软连接可以连接目录,而硬链接不可以链接目录。
软连接可以跨分区进行链接,而硬链接不可以跨分区,更不可以跨磁盘作链接,这是由于硬链接的inode号是针对分区来说的,inode在分区里才有实际意义。
九、inode的特殊作用
由于inode号码与文件名分离,这种机制导致了一些Unix/Linux系统特有的现象:
1. 有时,文件名包含特殊字符,无法正常删除。这时,直接删除inode节点,就能起到删除文件的作用:find . -inum 69905165 -exec rm -i {} \;
2. 移动文件或重命名文件,只是改变文件名,不影响inode号码。
3. 打开一个文件以后,系统就以inode号码来识别这个文件,不再考虑文件名。因此,通常来说,系统无法从inode号码得知文件名。
第3点使得软件更新变得简单,可以在不关闭软件的情况下进行更新,不需要重启。因为系统通过inode号码,识别运行中的文件,不通过文件名。更新的时候,新版文件以同样的文件名,生成一个新的inode,不会影响到运行中的文件。等到下一次运行这个软件的时候,文件名就自动指向新版文件,旧版文件的inode则被回收。
十、实际问题
在一台配置较低的Linux服务器(内存、硬盘比较小)的/data分区内创建文件时,系统提示磁盘空间不足,用df -h命令查看了一下磁盘使用情况,发现/data分区只使用了66%,还有12G的剩余空间,按理说不会出现这种问题。 后来用df -i查看了一下/data分区的索引节点(inode),发现已经用满(IUsed=100%),导致系统无法创建新目录和文件。
查找原因:
/data/cache目录中存在数量非常多的小字节缓存文件,占用的Block不多,但是占用了大量的inode。
解决方案:
1、删除/data/cache目录中的部分文件,释放出/data分区的一部分inode。
2、用软连接将空闲分区/opt中的newcache目录连接到/data/cache,使用/opt分区的inode来缓解/data分区inode不足的问题:ln -s /opt/newcache /data/cache
十一、文件共享
在Linux的进程中,当我们打开一个文件时,返回的是一个文件描述符。这个文件描述符是一个数组的下标,对应数组元素为一个指针。有趣的是,这个指针并没有直接指向文件的inode,而是指向了一个文件表格,再通过该表格,指向加载到内存中的目标文件的inode。如下图,一个进程打开了两个文件。
可以看到,每个文件表格中记录了文件打开的状态(status flags),比如只读,写入等,还记录了每个文件的当前读写位置(offset)。当有两个进程打开同一个文件时,可以有两个文件表格,每个文件表格对应的打开状态和当前位置不同,从而支持一些文件共享的操作,比如同时读取。要注意的是进程fork之后的情况,子进程将只复制文件描述符的数组,而和父进程共享内核维护的文件表格和inode。此时要特别小心程序的编写