Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码

简介: 然后就是这个1.1倍的事splitSize他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小、如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理、因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小、isSplitable

13.MapReduce框架原理

13.1InputFormat数据输入

13.1.3FileInputFormat切片源码解析

13.1.3.1切片源码断点在哪断并且介绍相关源码:

断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501这篇文章写了一部分了,可以先跟着这篇文章做,然后再看这篇文件就好理解了。


图片.png

一直运行到这一步然后强制进入。

图片.png

在这个位置打上断点,然后再断点处强行进入


图片.png

进去后在这两个地方打上断点

图片.png

然后进入这个断点

图片.png


就到FileInputFormat类里面了

图片.png

然后一直往上翻到最上面,点这个按下f4,就可以出现继承关系(type hierarchy)

图片.png

红色框住的是最常用的

TextInputFormat是`默认的按行切`

CombineTextInputFormat把多个小文件放到一起统一的进行切割

- 还有两个不经常用的

NLineInputFormat按行进行切割

KeyValueTextInputFormat

图片.png

我是设置过的,参考的尚硅谷的java课程,有兴趣的可以看下我之前的博客,或者你在设置里面全部快捷键里搜一下type hierarchy

图片.png

就可以知道你的快捷键是什么了https://blog.csdn.net/Redamancy06/article/details/126134561

图片.png

这里minSize获取的是1,1是怎么来的,可以看getFormatMinSplitSize这个和getMinSplitSize方法


图片.png

getFormatMinSplitSize方法他是返回的是1

图片.png

他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定


这个参数去mapred-default.xml里面找

图片.png


<property>

 <name>mapreduce.input.fileinputformat.split.minsize</name>

 <value>0</value>

 <description>The minimum size chunk that map input should be split

 into.  Note that some file formats may have minimum split sizes that

 take priority over this setting.</description>

</property>



这里的值默认是0

所以minSize的值取1


图片.png


maxSize没有获取到,是为什么呢,进入getMaxSplitSize方法里面看看

图片.png

他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定

图片.png

在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的,如果找不到,则会返回long的最大值,

图片.png

这里开始循环变量输入的个数,这里可以说明是一个文件一个文件的切片

图片.png

这里可以看出来文件地址,和文件大小

图片.png

图片.png

然后继续往下走到这里,isSplitable是检查是否支持切片,如果是压缩文件就不支持切片

图片.png

然后再往下走到这里,blockSize是块的大小为32m,因为是在本地,所以他是32m

图片.png

然后再往下走,splitSize是切片大小,他也是32m,是怎么来的,进入computeSplitSize方法看看

图片.png

因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小

图片.png

如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理

图片.png

这行代码就是将切片信息存在本地

图片.png


然后后面就是job提交源码的过程,有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501


13.1.3.2切片源码详解

图片.png

图片.png

双shift打开查找文件,然后输入InputFormat

图片.png

然后按f4打开这个进入FileInputFormat

图片.png

然后ctrl+f3查看对应的方法


最主要关心的是getSplits这个方法

图片.png

这个方法里有切片是怎么切的


13.1.3.3总结,那些可以证明你看过切片的源码

图片.png

他的切片原则是按照每一个文件单独切片

图片.png

还有这个,他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小

图片.png



目录
相关文章
|
9月前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
8月前
|
人工智能 API 开发者
HarmonyOS Next~鸿蒙应用框架开发实战:Ability Kit与Accessibility Kit深度解析
本书深入解析HarmonyOS应用框架开发,聚焦Ability Kit与Accessibility Kit两大核心组件。Ability Kit通过FA/PA双引擎架构实现跨设备协同,支持分布式能力开发;Accessibility Kit提供无障碍服务构建方案,优化用户体验。内容涵盖设计理念、实践案例、调试优化及未来演进方向,助力开发者打造高效、包容的分布式应用,体现HarmonyOS生态价值。
506 27
|
8月前
|
算法 测试技术 C语言
深入理解HTTP/2:nghttp2库源码解析及客户端实现示例
通过解析nghttp2库的源码和实现一个简单的HTTP/2客户端示例,本文详细介绍了HTTP/2的关键特性和nghttp2的核心实现。了解这些内容可以帮助开发者更好地理解HTTP/2协议,提高Web应用的性能和用户体验。对于实际开发中的应用,可以根据需要进一步优化和扩展代码,以满足具体需求。
825 29
|
8月前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
528 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
8月前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
614 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
9月前
|
机器学习/深度学习 算法 数据挖掘
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
233 22
解析静态代理IP改善游戏体验的原理
|
8月前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
1078 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
9月前
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
627 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
8月前
|
传感器 人工智能 监控
反向寻车系统怎么做?基本原理与系统组成解析
本文通过反向寻车系统的核心组成部分与技术分析,阐述反向寻车系统的工作原理,适用于适用于商场停车场、医院停车场及火车站停车场等。如需获取智慧停车场反向寻车技术方案前往文章最下方获取,如有项目合作及技术交流欢迎私信作者。
615 2
|
8月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
504 3

相关实验场景

更多

推荐镜像

更多
  • DNS
  • 下一篇
    oss云网关配置