Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

@[toc]

13.MapReduce框架原理

13.1InputFormat数据输入

13.1.3FileInputFormat切片源码解析

13.1.3.1切片源码断点在哪断并且介绍相关源码:

断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501
这篇文章写了一部分了,可以先跟着这篇文章做,然后再看这篇文件就好理解了。

在这里插入图片描述一直运行到这一步然后强制进入。
在这里插入图片描述在这个位置打上断点,然后再断点处强行进入

在这里插入图片描述进去后在这两个地方打上断点

在这里插入图片描述然后进入这个断点
在这里插入图片描述就到FileInputFormat类里面了

在这里插入图片描述然后一直往上翻到最上面,点这个按下f4,就可以出现继承关系(type hierarchy)

在这里插入图片描述

  • 红色框住的是最常用的

TextInputFormat是默认的按行切
CombineTextInputFormat把多个小文件放到一起统一的进行切割

  • 还有两个不经常用的

NLineInputFormat按行进行切割
KeyValueTextInputFormat

在这里插入图片描述
我是设置过的,参考的尚硅谷的java课程,有兴趣的可以看下我之前的博客,或者你在设置里面全部快捷键里搜一下type hierarchy
在这里插入图片描述就可以知道你的快捷键是什么了

https://blog.csdn.net/Redamancy06/article/details/126134561

在这里插入图片描述这里minSize获取的是1,1是怎么来的,可以看getFormatMinSplitSize这个和getMinSplitSize方法

在这里插入图片描述getFormatMinSplitSize方法他是返回的是1,

在这里插入图片描述他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定

这个参数去mapred-default.xml里面找

在这里插入图片描述

<property>
  <name>mapreduce.input.fileinputformat.split.minsize</name>
  <value>0</value>
  <description>The minimum size chunk that map input should be split
  into.  Note that some file formats may have minimum split sizes that
  take priority over this setting.</description>
</property>

这里的值默认是0
所以minSize的值取1

在这里插入图片描述
maxSize没有获取到,是为什么呢,进入getMaxSplitSize方法里面看看

在这里插入图片描述他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定
在这里插入图片描述在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的,如果找不到,则会返回long的最大值,

在这里插入图片描述这里开始循环变量输入的个数,这里可以说明是一个文件一个文件的切片

在这里插入图片描述这里可以看出来文件地址,和文件大小

在这里插入图片描述

在这里插入图片描述

然后继续往下走到这里,isSplitable是检查是否支持切片,如果是压缩文件就不支持切片

在这里插入图片描述
然后再往下走到这里,blockSize是块的大小为32m,因为是在本地,所以他是32m

在这里插入图片描述然后再往下走,splitSize是切片大小,他也是32m,是怎么来的,进入computeSplitSize方法看看
在这里插入图片描述
因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小

在这里插入图片描述
如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理

在这里插入图片描述
这行代码就是将切片信息存在本地
在这里插入图片描述
然后后面就是job提交源码的过程,有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501

13.1.3.2切片源码详解

在这里插入图片描述
在这里插入图片描述双shift打开查找文件,然后输入InputFormat
在这里插入图片描述
然后按f4打开这个进入FileInputFormat
在这里插入图片描述
然后ctrl+f3查看对应的方法

最主要关心的是getSplits这个方法

在这里插入图片描述
这个方法里有切片是怎么切的

13.1.3.3总结,那些可以证明你看过切片的源码

在这里插入图片描述他的切片原则是按照每一个文件单独切片

在这里插入图片描述还有这个,他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小

在这里插入图片描述然后就是这个1.1倍的事

相关文章
|
26天前
|
存储 Java
深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。
【10月更文挑战第16天】本文深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。HashSet基于哈希表实现,添加元素时根据哈希值分布,遍历时顺序不可预测;而TreeSet利用红黑树结构,按自然顺序或自定义顺序存储元素,确保遍历时有序输出。文章还提供了示例代码,帮助读者更好地理解这两种集合类型的使用场景和内部机制。
35 3
|
1月前
|
XML JSON API
ServiceStack:不仅仅是一个高性能Web API和微服务框架,更是一站式解决方案——深入解析其多协议支持及简便开发流程,带您体验前所未有的.NET开发效率革命
【10月更文挑战第9天】ServiceStack 是一个高性能的 Web API 和微服务框架,支持 JSON、XML、CSV 等多种数据格式。它简化了 .NET 应用的开发流程,提供了直观的 RESTful 服务构建方式。ServiceStack 支持高并发请求和复杂业务逻辑,安装简单,通过 NuGet 包管理器即可快速集成。示例代码展示了如何创建一个返回当前日期的简单服务,包括定义请求和响应 DTO、实现服务逻辑、配置路由和宿主。ServiceStack 还支持 WebSocket、SignalR 等实时通信协议,具备自动验证、自动过滤器等丰富功能,适合快速搭建高性能、可扩展的服务端应用。
100 3
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
10天前
|
存储 Java 开发者
Java中的集合框架深入解析
【10月更文挑战第32天】本文旨在为读者揭开Java集合框架的神秘面纱,通过深入浅出的方式介绍其内部结构与运作机制。我们将从集合框架的设计哲学出发,探讨其如何影响我们的编程实践,并配以代码示例,展示如何在真实场景中应用这些知识。无论你是Java新手还是资深开发者,这篇文章都将为你提供新的视角和实用技巧。
11 0
|
30天前
|
分布式计算 Java 应用服务中间件
NettyIO框架的深度技术解析与实战
【10月更文挑战第13天】Netty是一个异步事件驱动的网络应用程序框架,由JBOSS提供,现已成为Github上的独立项目。
37 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
82 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
37 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
46 0
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
148 6
|
15天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
58 2

推荐镜像

更多