Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

简介: Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

@[toc]

13.MapReduce框架原理

13.1InputFormat数据输入

13.1.3FileInputFormat切片源码解析

13.1.3.1切片源码断点在哪断并且介绍相关源码:

断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501
这篇文章写了一部分了,可以先跟着这篇文章做,然后再看这篇文件就好理解了。

在这里插入图片描述一直运行到这一步然后强制进入。
在这里插入图片描述在这个位置打上断点,然后再断点处强行进入

在这里插入图片描述进去后在这两个地方打上断点

在这里插入图片描述然后进入这个断点
在这里插入图片描述就到FileInputFormat类里面了

在这里插入图片描述然后一直往上翻到最上面,点这个按下f4,就可以出现继承关系(type hierarchy)

在这里插入图片描述

  • 红色框住的是最常用的

TextInputFormat是默认的按行切
CombineTextInputFormat把多个小文件放到一起统一的进行切割

  • 还有两个不经常用的

NLineInputFormat按行进行切割
KeyValueTextInputFormat

在这里插入图片描述
我是设置过的,参考的尚硅谷的java课程,有兴趣的可以看下我之前的博客,或者你在设置里面全部快捷键里搜一下type hierarchy
在这里插入图片描述就可以知道你的快捷键是什么了

https://blog.csdn.net/Redamancy06/article/details/126134561

在这里插入图片描述这里minSize获取的是1,1是怎么来的,可以看getFormatMinSplitSize这个和getMinSplitSize方法

在这里插入图片描述getFormatMinSplitSize方法他是返回的是1,

在这里插入图片描述他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定

这个参数去mapred-default.xml里面找

在这里插入图片描述

<property>
  <name>mapreduce.input.fileinputformat.split.minsize</name>
  <value>0</value>
  <description>The minimum size chunk that map input should be split
  into.  Note that some file formats may have minimum split sizes that
  take priority over this setting.</description>
</property>

这里的值默认是0
所以minSize的值取1

在这里插入图片描述
maxSize没有获取到,是为什么呢,进入getMaxSplitSize方法里面看看

在这里插入图片描述他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定
在这里插入图片描述在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的,如果找不到,则会返回long的最大值,

在这里插入图片描述这里开始循环变量输入的个数,这里可以说明是一个文件一个文件的切片

在这里插入图片描述这里可以看出来文件地址,和文件大小

在这里插入图片描述

在这里插入图片描述

然后继续往下走到这里,isSplitable是检查是否支持切片,如果是压缩文件就不支持切片

在这里插入图片描述
然后再往下走到这里,blockSize是块的大小为32m,因为是在本地,所以他是32m

在这里插入图片描述然后再往下走,splitSize是切片大小,他也是32m,是怎么来的,进入computeSplitSize方法看看
在这里插入图片描述
因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小

在这里插入图片描述
如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理

在这里插入图片描述
这行代码就是将切片信息存在本地
在这里插入图片描述
然后后面就是job提交源码的过程,有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501

13.1.3.2切片源码详解

在这里插入图片描述
在这里插入图片描述双shift打开查找文件,然后输入InputFormat
在这里插入图片描述
然后按f4打开这个进入FileInputFormat
在这里插入图片描述
然后ctrl+f3查看对应的方法

最主要关心的是getSplits这个方法

在这里插入图片描述
这个方法里有切片是怎么切的

13.1.3.3总结,那些可以证明你看过切片的源码

在这里插入图片描述他的切片原则是按照每一个文件单独切片

在这里插入图片描述还有这个,他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小

在这里插入图片描述然后就是这个1.1倍的事

相关文章
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
565 7
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
348 1
|
分布式计算 负载均衡 算法
Hadoop-31 ZooKeeper 内部原理 简述Leader选举 ZAB协议 一致性
Hadoop-31 ZooKeeper 内部原理 简述Leader选举 ZAB协议 一致性
247 1
|
分布式计算 监控 Hadoop
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
345 1
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
279 1
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
468 1
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
315 0
|
XML 分布式计算 Hadoop
分布式系统详解--框架(Hadoop-单机版搭建)
分布式系统详解--框架(Hadoop-单机版搭建)
252 0
分布式系统详解--框架(Hadoop-单机版搭建)
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
448 0
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
442 0

相关实验场景

更多

推荐镜像

更多
  • DNS