Hadoop HDFS概念学习系列之fsimage metadata(二十二)

简介:

 想说的是,fsimage 是在磁盘。metadata是在内存。

      元数据metadata,内存保存一份,磁盘保存一份。

      备份机制思想,就如同在学校图书馆中的书库。为了使得借书运转,要买多本书存库。

      我client提货员,向仓库管理员namenode,请求提货,在他同意同时,会将这情况写到editlog,先是将editlog写到磁盘,成功后,再写到内存。

 

      fsimage 载入内存           合并edits

                |

         新的fsimage 

                |

            namenode ,替换旧的

 

 

 

什么时候checkpoint?

              

       

 

  条件一:
fs.checkpoint.period
默认是3600秒,每隔一个小时,Secondarynamenode就要下载fsimage和edits,进行数据的同步。

   条件二:
fs.checkpoint.size
edits一直在变大。一旦达到64M或128M,就要进行合并。

只要达到这两个条件的其中一个,都会进行合并。 
 
 

      在hadoop1.*里,就是fsimage。在hadoop2.*里,还加了后缀。

      在$HADOOP_HOME/tmp/dfs/data或$HADOOP_HOME/tmp/dfs/name

  对于比如hadoop fs -ls /查看到的文件啊。最终还是存放在磁盘上。因为它是Linux文件系统之上的HDFS文件系统。

      安装Eclipse版本时,使用Javase,里面不自带插件,麻烦,一般用Javaee。

      保证,集群里的jdk,与Eclipse的jdk一致。比如都是1.7即可。不需精确到1.7的具体版本。 

 

 

        RPC-----远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,

   为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

      

 

        在hadoop-2.2.0源代码里,按 Ctrl + shift + T。

        跳进某个方法里,按F5和F6。跳出某个方法里,按F7。

 

 

        Shift + Alt  +S

        map      <k1,v1>       <k2,v2>

   reduce   <k2,{v2}>   <k3,v3>

 

        MR流程: 代码编写   ->  作业配置  ->  提交作业   ->  初始化作业   ->  分配任务   ->  执行任务   -> 更新任务和状态  ->  完成作业

        main方法所在的类,传入一个是args0,args1

        args0是map阶段前的,输入路径

        args1是reduce阶段前的,输出路径

     


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5598524.html,如需转载请自行联系原作者

相关文章
|
4天前
|
存储 分布式计算 运维
Hadoop的HDFS问题
【5月更文挑战第5天】Hadoop的HDFS问题
11 3
|
1月前
|
分布式计算 Hadoop 大数据
Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
【4月更文挑战第5天】Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
47 5
|
1月前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
46 8
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
54 9
|
1月前
|
分布式计算 Hadoop Shell
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第4天】Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
33 5
|
1月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
87 2
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
5天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
24 0
|
15天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
20天前
|
分布式计算 Hadoop 大数据
[大数据] mac 史上最简单 hadoop 安装过程
[大数据] mac 史上最简单 hadoop 安装过程

相关实验场景

更多