1.NameNode概述
a、NameNode是HDFS的==核心==。
b、NameNode也称为==Master==。
c、NameNode仅存储HDFS的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。
d、NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。
e、NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。
f、NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息,这些信息会在系统启动时从数据节点重建。
g、NameNode对于HDFS至关重要,当NameNode关闭时,HDFS / Hadoop集群无法访问。
h、NameNode是Hadoop集群中的单点故障。
i、NameNode所在机器通常会配置有大量内存(RAM)。
2.DataNode概述
a、DataNode负责将实际数据存储在HDFS中。
b、DataNode也称为Slave。
c、NameNode和DataNode会保持不断通信。
d、DataNode启动时,它将自己发布到NameNode并汇报自己负责持有的块列表。
e、当某个DataNode关闭时,它不会影响数据或群集的可用性。NameNode将安排由其他DataNode管理的块进行副本复制。
f、DataNode所在机器通常配置有大量的硬盘空间。因为实际数据存储在DataNode中。
g、DataNode会定期(dfs.heartbeat.interval配置项配置,默认是3秒)向NameNode发送心跳,如果NameNode长时间没有接受到DataNode发送的心跳, NameNode就会认为该DataNode失效。
h、block汇报时间间隔取参数dfs.blockreport.intervalMsec,参数未配置的话默认为6小时.