Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

简介: 然后就是这个1.1倍的事splitSize他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小、如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理、因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小、isSplitable

13.MapReduce框架原理

13.1InputFormat数据输入

13.1.3FileInputFormat切片源码解析

13.1.3.1切片源码断点在哪断并且介绍相关源码:

断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501这篇文章写了一部分了,可以先跟着这篇文章做,然后再看这篇文件就好理解了。


图片.png

一直运行到这一步然后强制进入。

图片.png

在这个位置打上断点,然后再断点处强行进入


图片.png

进去后在这两个地方打上断点

图片.png

然后进入这个断点

图片.png


就到FileInputFormat类里面了

图片.png

然后一直往上翻到最上面,点这个按下f4,就可以出现继承关系(type hierarchy)

图片.png

红色框住的是最常用的

TextInputFormat是`默认的按行切`

CombineTextInputFormat把多个小文件放到一起统一的进行切割

- 还有两个不经常用的

NLineInputFormat按行进行切割

KeyValueTextInputFormat

图片.png

我是设置过的,参考的尚硅谷的java课程,有兴趣的可以看下我之前的博客,或者你在设置里面全部快捷键里搜一下type hierarchy

图片.png

就可以知道你的快捷键是什么了https://blog.csdn.net/Redamancy06/article/details/126134561

图片.png

这里minSize获取的是1,1是怎么来的,可以看getFormatMinSplitSize这个和getMinSplitSize方法


图片.png

getFormatMinSplitSize方法他是返回的是1

图片.png

他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定


这个参数去mapred-default.xml里面找

图片.png


<property>

 <name>mapreduce.input.fileinputformat.split.minsize</name>

 <value>0</value>

 <description>The minimum size chunk that map input should be split

 into.  Note that some file formats may have minimum split sizes that

 take priority over this setting.</description>

</property>



这里的值默认是0

所以minSize的值取1


图片.png


maxSize没有获取到,是为什么呢,进入getMaxSplitSize方法里面看看

图片.png

他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定

图片.png

在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的,如果找不到,则会返回long的最大值,

图片.png

这里开始循环变量输入的个数,这里可以说明是一个文件一个文件的切片

图片.png

这里可以看出来文件地址,和文件大小

图片.png

图片.png

然后继续往下走到这里,isSplitable是检查是否支持切片,如果是压缩文件就不支持切片

图片.png

然后再往下走到这里,blockSize是块的大小为32m,因为是在本地,所以他是32m

图片.png

然后再往下走,splitSize是切片大小,他也是32m,是怎么来的,进入computeSplitSize方法看看

图片.png

因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小

图片.png

如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理

图片.png

这行代码就是将切片信息存在本地

图片.png


然后后面就是job提交源码的过程,有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501


13.1.3.2切片源码详解

图片.png

图片.png

双shift打开查找文件,然后输入InputFormat

图片.png

然后按f4打开这个进入FileInputFormat

图片.png

然后ctrl+f3查看对应的方法


最主要关心的是getSplits这个方法

图片.png

这个方法里有切片是怎么切的


13.1.3.3总结,那些可以证明你看过切片的源码

图片.png

他的切片原则是按照每一个文件单独切片

图片.png

还有这个,他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小

图片.png



目录
相关文章
|
3天前
|
缓存 前端开发 Java
【框架】Spring 框架重点解析
【框架】Spring 框架重点解析
18 0
|
1天前
|
iOS开发 Python
mac:python安装路径,带你全面解析Python框架体系架构view篇
mac:python安装路径,带你全面解析Python框架体系架构view篇
|
1天前
|
Linux 网络安全 Windows
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
|
2天前
|
负载均衡 算法
Dubbo-负载均衡原理解析(1),一个本科渣渣是怎么逆袭从咸鱼到Offer收割机的
Dubbo-负载均衡原理解析(1),一个本科渣渣是怎么逆袭从咸鱼到Offer收割机的
|
2天前
|
Android开发
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
|
2天前
HuggingFace Tranformers 源码解析(4)
HuggingFace Tranformers 源码解析
6 0
|
2天前
HuggingFace Tranformers 源码解析(3)
HuggingFace Tranformers 源码解析
6 0
|
2天前
|
开发工具 git
HuggingFace Tranformers 源码解析(2)
HuggingFace Tranformers 源码解析
6 0
|
2天前
|
并行计算
HuggingFace Tranformers 源码解析(1)
HuggingFace Tranformers 源码解析
8 0
|
3天前
|
Web App开发 开发框架 前端开发
Open UI5 前端开发框架配套的 Mock Server 工作原理解析
Open UI5 前端开发框架配套的 Mock Server 工作原理解析
11 0

推荐镜像

更多