HDFS源码分析之FSImage文件内容(一)总体格式

简介:         FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。它的作用不言而喻,在HA出现之前,NameNode因为各种原因宕机后,若要恢复或在其他机器上重启NameNode,重新组织元数据,就需要加载对应的FSImage文件、FSEditLog文件,并在内存中重做FSEditLog文件中的事务条目。

        FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。它的作用不言而喻,在HA出现之前,NameNode因为各种原因宕机后,若要恢复或在其他机器上重启NameNode,重新组织元数据,就需要加载对应的FSImage文件、FSEditLog文件,并在内存中重做FSEditLog文件中的事务条目。本节,我们先来看下FSImage文件格式,及其内部数据是如何组织的。

        通过翻看HDFS中加载FSImage文件的代码,从FSNamesystem的loadFSImage()方法开始,我将HDFS集群上的一个FSImage文件放到本地Windows系统中的F盘下,并写了如下方法解析文件,并打印关键内容,如下:

import java.io.IOException;
import java.io.File;
import java.util.List;
import org.junit.Test;
import java.io.ByteArrayInputStream;
import java.io.RandomAccessFile;
import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary;
import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary.Section;

public class TestImageUtil {

	@Test
	public void testImage() {

	    // 文件头字符串HDFSIMG1对应byte[]
		byte[] fileHead = "HDFSIMG1".getBytes();

		RandomAccessFile raFile = null;
		try {
			
			// 创建文件file,对应为f盘下FSImage文件fsimage_0000000000002311798
			File file = new File("f:/fsimage_0000000000002311798");

			raFile = new RandomAccessFile(file, "r");

			// 文件summary长度域所占大小为4
			final int FILE_LENGTH_FIELD_SIZE = 4;
			System.out.println("文件summary长度域大小:FILE_LENGTH_FIELD_SIZE=" + FILE_LENGTH_FIELD_SIZE);
			
			// 获取FSImage文件长度
			long fileLength = raFile.length();
			System.out.println("获取FSImage文件长度:fileLength=" + fileLength);

			// 创建文件头byte[]数组fileHeadTmp,用于存储文件头byte[]数组,大小为上述fileHead数组大小
			byte[] fileHeadTmp = new byte[fileHead.length];
			
			// 读入文件头至byte[]数组fileHeadTmp
			System.out.println("文件从头开始读取" + fileHeadTmp.length + "个byte至byte[]数组fileHeadTmp");
			raFile.readFully(fileHeadTmp);

			// 获取文件头长度
			System.out.println("获取文件头长度:fileHeadLength=" + fileHead.length);

			// 将byte[]数组fileHeadTmp转换成字符串fileHeadString
			String fileHeadString = new String(fileHeadTmp);
			// 验证文件头字符串
			System.out.println("fileHeadString=" + fileHeadString);

			// 文件file通过raFile.seek()方法定位到文件summary长度字段起始处,即文件大小减去文件summary长度域所占字节数4
			raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE);
			System.out.println("文件定位到文件summary长度开始处:" + (fileLength - FILE_LENGTH_FIELD_SIZE));

			// 读入一个int,即文件长度summaryLength
			int summaryLength = raFile.readInt();
			System.out.println("获取文件summary部分长度:summaryLength=" + summaryLength);

			// 文件file通过raFile.seek()方法定位到文件summary部分开始处,即文件大小减去文件长度所占字节数4,再减去文件内容总长度
			raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength);
			System.out.println("文件定位到文件summary部分开始处:" + (fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength));

			// 再从当前位置开始读入文件summary部分内容
			// 构造文件长度summaryLength大小的byte[]数组
			byte[] summaryBytes = new byte[summaryLength];

			// 读取文件内容至数组summaryBytes
			raFile.readFully(summaryBytes);
			System.out.println("从当前位置开始读入文件summary部分内容至summaryBytes数组");

			FileSummary summary = FileSummary
					.parseDelimitedFrom(new ByteArrayInputStream(summaryBytes));

			System.out.println("解析文件summary部分内容如下:");
			System.out.println("1、ondiskVersion=" + summary.getOndiskVersion());
			System.out.println("2、layoutVersion=" + summary.getLayoutVersion());
			System.out.println("3、codec=" + summary.getCodec());

			System.out.println("4、section"); 
			List<Section> sectionsList = summary.getSectionsList();
			for (Section section : sectionsList) {
				System.out.println(" ");
				System.out.println("name=" + section.getName());
				System.out.println("length=" + section.getLength());
				System.out.println("offset=" + section.getOffset());
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			if (raFile != null) {
				try {
					raFile.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}

	}

	/**
	 * Supported section name. The order of the enum determines the order of
	 * loading.
	 */
	public enum SectionName {
		NS_INFO("NS_INFO"), STRING_TABLE("STRING_TABLE"), EXTENDED_ACL(
				"EXTENDED_ACL"), INODE("INODE"), INODE_REFERENCE(
				"INODE_REFERENCE"), SNAPSHOT("SNAPSHOT"), INODE_DIR("INODE_DIR"), FILES_UNDERCONSTRUCTION(
				"FILES_UNDERCONSTRUCTION"), SNAPSHOT_DIFF("SNAPSHOT_DIFF"), SECRET_MANAGER(
				"SECRET_MANAGER"), CACHE_MANAGER("CACHE_MANAGER");

		private static final SectionName[] values = SectionName.values();

		public static SectionName fromString(String name) {
			for (SectionName n : values) {
				if (n.name.equals(name))
					return n;
			}
			return null;
		}

		private final String name;

		private SectionName(String name) {
			this.name = name;
		}
	}
}

        关于代码解释,我们会在专门的FSImage文件加载源码分析相关文章中进行详细介绍,本文只关注FSImage文件的总体格式。

        执行上述方法,打印内容输出如下:

文件summary长度域大小:FILE_LENGTH_FIELD_SIZE=4
获取FSImage文件长度:fileLength=1154156
文件从头开始读取8个byte至byte[]数组fileHeadTmp
获取文件头长度:fileHeadLength=8
fileHeadString=HDFSIMG1
文件定位到文件summary长度开始处:1154152
获取文件summary部分长度:summaryLength=231
文件定位到文件summary部分开始处:1153921
从当前位置开始读入文件summary部分内容至summaryBytes数组
解析文件summary部分内容如下:
1、ondiskVersion=1
2、layoutVersion=-60
3、codec=
4、section
 
name=NS_INFO
length=27
offset=8
 
name=INODE
length=1093067
offset=35
 
name=INODE_DIR
length=60225
offset=1093102
 
name=FILES_UNDERCONSTRUCTION
length=345
offset=1153327
 
name=SNAPSHOT
length=68
offset=1153672
 
name=SNAPSHOT_DIFF
length=36
offset=1153740
 
name=INODE_REFERENCE
length=0
offset=1153776
 
name=SECRET_MANAGER
length=9
offset=1153776
 
name=CACHE_MANAGER
length=7
offset=1153785
 
name=STRING_TABLE
length=129
offset=1153792
        不难看出,文件的总长度为1154156,这与我通过windows系统下右击-属性的方式查看结果是一致的,如下:


        (一)文件的起始位置(下标我们从0开始),0-7处为文件头信息,占8个byte的"HDFSIMG1";

        (二)然后是接下来是10个section区域,这部分在FSImage文件中所占起止位置为8-1153920,这些是根据下面的summary区域的分析得到的结论,section分别如下:

        1、8-34:占27个byte的section--NS_INFO,命名系统NameSystem信息section区域,具体内容后续文章再讲;

        2、35-1093101:占1093067个byte的section--INODE,HDFS中INODE节点section区域,具体内容后续文章再讲;

        3、1093102-1153326:占60225个byte的section--INODE_DIR,HDFS中INODE目录节点section区域,具体内容后续文章再讲;

        4、1153327-1153671:占345个byte的section--FILES_UNDERCONSTRUCTION,HDFS中FILES_UNDERCONSTRUCTION处于构建状态文件部分section区域,具体内容后续文章再讲;

        5、1153672-1153739:占68个byte的section--SNAPSHOT,HDFS中SNAPSHOT快照部分section区域,具体内容后续文章再讲;

        6、1153740-1153775:占36个byte的section--SNAPSHOT_DIFF,HDFS中SNAPSHOT_DIFF部分section区域,具体内容后续文章再讲;

        7、1153776-?:占0个byte的section--INODE_REFERENCE,HDFS中INODE_REFERENCE节点引用部分section区域,具体内容后续文章再讲,实际上本文件中没有这部分,为了体现FSImage文件的完整性,还是增加这部分的描述;

        8、1153776-1153784:占9个byte的section--SECRET_MANAGER,HDFS中SECRET_MANAGER部分section区域,具体内容后续文章再讲;

        9、1153785-1153791:占7个byte的section--CACHE_MANAGER,HDFS中CACHE_MANAGER部分section区域,具体内容后续文章再讲;

        10、1153792-1153920:占129个byte的section--STRING_TABLE,HDFS中STRING_TABLE部分section区域,具体内容后续文章再讲;

        (三)再接下来是文件summary区域,这部分在FSImage文件中所占起止位置为1153921-1154151,长度为231,它主要标识了上述各section区域的区域名name、在FSImage文件所占长度length及其起始位置offset,另外还有三个十分总要的变量,FSImage文件在磁盘上的版本号ondiskVersion、布局layout版本号layoutVersion及其解压/压缩器codec,前面两个会在load文件时与HDFS中NameNode进程内存中的版本号分别进行校验,防止错误版本的FSImage文件被加载,而codec则用于如何加载各个section区域,为空默认不做任何解压/压缩处理;

        (四)最后为文件summary部分所占长度区域,这部分在FSImage文件中所占起止位置为1154152-1154155,正好是文件的最后一部分内容。

        

        或许通过图的方式你会看的更直观,但是请原谅我拙劣的画图技巧:


        实际上,FSImage文件中各个区域包含的内容,采用的是Google的protobuf编码格式,而protobuf不单单是一种消息传输格式,你也可以把它理解为一种数据编码格式,所以各个区域数据格式,在HDFS内的fsimage.proto文件中也有所阐述,比如FileSummary:

message FileSummary {
  // The version of the above EBNF grammars.
  required uint32 ondiskVersion = 1;
  // layoutVersion describes which features are available in the
  // FSImage.
  required uint32 layoutVersion = 2;
  optional string codec         = 3;
  // index for each section
  message Section {
    optional string name = 1;
    optional uint64 length = 2;
    optional uint64 offset = 3;
  }
  repeated Section sections = 4;
}
        它就包含我们上面所描述的ondiskVersion、layoutVersion、codec、sections五部分,最后的sections是可以重复的,即repeated,而每个section又是一个message,包含name、length、offset三部分,正和我们上面解析的结果一致。

        又如StringTableSection:

/**
 * This section maps string to id
 * NAME: STRING_TABLE
 */
message StringTableSection {
  message Entry {
    optional uint32 id = 1;
    optional string str = 2;
  }
  optional uint32 numEntry = 1;
  // repeated Entry
}
        包含两部分,Entry数量:numEntry,和重复的Entry,每个Entry又是一个Message,包含id和str两部分。

        以上就是FSImage文件的主体信息,至于文件中的详细内容,特别是每个不同section区域中都有哪些内容,尤其是复杂的INodeSection等,我们后续再讲!


相关文章
|
6月前
|
分布式计算 Hadoop 大数据
【大数据开发技术】实验05-HDFS目录与文件的创建删除与查询操作
【大数据开发技术】实验05-HDFS目录与文件的创建删除与查询操作
75 0
|
6月前
|
分布式计算 Hadoop 大数据
【大数据开发技术】实验04-HDFS文件创建与写入
【大数据开发技术】实验04-HDFS文件创建与写入
100 0
|
3月前
|
存储 分布式计算 Hadoop
HDFS如何处理大文件和小文件的存储和访问?
HDFS如何处理大文件和小文件的存储和访问?
47 0
|
8月前
|
存储 分布式计算 安全
分布式文件系统(HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小)
分布式文件系统(HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小)
156 0
|
9月前
|
存储 SQL 分布式计算
HDFS 小文件问题及处理方法【重要】
HDFS 小文件问题及处理方法【重要】
345 0
|
4月前
|
存储 大数据 Java
【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)
【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)
86 0
|
9月前
|
存储 大数据
大数据数据存储的分布式文件系统的HDFS的基本使用的命令行接口的拷贝/移动文件
在 Hdfs 中,使用命令行接口可以方便地对数据进行操作。
49 1
|
9月前
|
存储 大数据
大数据数据存储的分布式文件系统的HDFS的基本使用的命令行接口的导入/导出文件
在 Hdfs 中,使用命令行接口可以方便地对数据进行操作。
49 0
|
9月前
|
存储 大数据
大数据数据存储的分布式文件系统的HDFS的基本使用的命令行接口的查看文件内容
在 Hdfs 中,使用命令行接口可以方便地对数据进行操作。
52 0
|
5月前
|
监控 Java
64 Flume采集文件到HDFS
64 Flume采集文件到HDFS
30 0