备案控制台

开发者社区大数据文章正文

Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结，那些可以证明你看过切片的源码

2022-08-26 174

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介： 然后就是这个1.1倍的事splitSize他的值取决于块大小，minSize，maxSize，但是块大小是不能改变的，因为他是实实在在存在物理地址的数据，因此块是不能改变的，但是minSize，和maxSize是可以改变的，可以通过改变这两个值来改变切片大小、如果文件大小除以切片大小大于1.1则切成两片，如果小于1.1则按一片来处理、因为minSize为1，maxSize为long 的最大值，blockSize是32，所以切片的大小与minSize和maxSize有关，可以通过调整这两个的值来改变切片的大小、isSplitable

13.MapReduce框架原理

13.1InputFormat数据输入

13.1.3FileInputFormat切片源码解析

13.1.3.1切片源码断点在哪断并且介绍相关源码：

断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501这篇文章写了一部分了，可以先跟着这篇文章做，然后再看这篇文件就好理解了。

图片.png

一直运行到这一步然后强制进入。

图片.png

在这个位置打上断点，然后再断点处强行进入

图片.png

进去后在这两个地方打上断点

图片.png

然后进入这个断点

图片.png

就到FileInputFormat类里面了

图片.png

然后一直往上翻到最上面，点这个按下f4，就可以出现继承关系(type hierarchy)

图片.png

红色框住的是最常用的

TextInputFormat是`默认的按行切`

CombineTextInputFormat把多个小文件放到一起统一的进行切割

- 还有两个不经常用的

NLineInputFormat按行进行切割

KeyValueTextInputFormat

图片.png

我是设置过的，参考的尚硅谷的java课程，有兴趣的可以看下我之前的博客，或者你在设置里面全部快捷键里搜一下type hierarchy

图片.png

就可以知道你的快捷键是什么了https://blog.csdn.net/Redamancy06/article/details/126134561

图片.png

这里minSize获取的是1,1是怎么来的，可以看getFormatMinSplitSize这个和getMinSplitSize方法

图片.png

getFormatMinSplitSize方法他是返回的是1

图片.png

他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定

这个参数去mapred-default.xml里面找

图片.png

<property>

<name>mapreduce.input.fileinputformat.split.minsize</name>

<value>0</value>

<description>The minimum size chunk that map input should be split

into. Note that some file formats may have minimum split sizes that

take priority over this setting.</description>

</property>

这里的值默认是0

所以minSize的值取1

图片.png

maxSize没有获取到，是为什么呢，进入getMaxSplitSize方法里面看看

图片.png

他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定

图片.png

在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的，如果找不到，则会返回long的最大值，

图片.png

这里开始循环变量输入的个数，这里可以说明是一个文件一个文件的切片

图片.png

这里可以看出来文件地址，和文件大小

图片.png

图片.png

然后继续往下走到这里，isSplitable是检查是否支持切片，如果是压缩文件就不支持切片

图片.png

然后再往下走到这里，blockSize是块的大小为32m，因为是在本地，所以他是32m

图片.png

然后再往下走，splitSize是切片大小，他也是32m，是怎么来的，进入computeSplitSize方法看看

图片.png

因为minSize为1，maxSize为long 的最大值，blockSize是32，所以切片的大小与minSize和maxSize有关，可以通过调整这两个的值来改变切片的大小

图片.png

如果文件大小除以切片大小大于1.1则切成两片，如果小于1.1则按一片来处理

图片.png

这行代码就是将切片信息存在本地

图片.png

然后后面就是job提交源码的过程，有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501

13.1.3.2切片源码详解

图片.png

图片.png

双shift打开查找文件，然后输入InputFormat

图片.png

然后按f4打开这个进入FileInputFormat

图片.png

然后ctrl+f3查看对应的方法

最主要关心的是getSplits这个方法

图片.png

这个方法里有切片是怎么切的

13.1.3.3总结，那些可以证明你看过切片的源码

图片.png

他的切片原则是按照每一个文件单独切片

图片.png

还有这个，他的值取决于块大小，minSize，maxSize，但是块大小是不能改变的，因为他是实实在在存在物理地址的数据，因此块是不能改变的，但是minSize，和maxSize是可以改变的，可以通过改变这两个值来改变切片大小

图片.png

文章标签：

云解析DNS

Java

分布式计算

Hadoop

关键词：

云解析DNS原理

云解析DNS源码

云解析DNS框架

切片云解析DNS

hadoop框架原理

Redamancy

目录

相关文章

游客xxxp5b4cwdiqa

|

5天前

|

安全算法网络协议

解析：HTTPS通过SSL/TLS证书加密的原理与逻辑

HTTPS通过SSL/TLS证书加密，结合对称与非对称加密及数字证书验证实现安全通信。首先，服务器发送含公钥的数字证书，客户端验证其合法性后生成随机数并用公钥加密发送给服务器，双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时，数字证书验证服务器身份，防止中间人攻击；哈希算法和数字签名确保数据完整性，防止篡改。整个流程保障了身份认证、数据加密和完整性保护。

游客xxxp5b4cwdiqa

26 1 1

喜欢猪猪

|

3月前

|

存储缓存算法

HashMap深度解析：从原理到实战

HashMap，作为Java集合框架中的一个核心组件，以其高效的键值对存储和检索机制，在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师，深入理解HashMap的原理、历史、业务场景以及实战应用，对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图，结合Java代码示例，全方位解析HashMap，帮助读者从理论到实践全面掌握这一关键技术。

喜欢猪猪

117 14 14

G0518

|

4月前

|

运维持续交付云计算

深入解析云计算中的微服务架构：原理、优势与实践

深入解析云计算中的微服务架构：原理、优势与实践

G0518

153 3 3

91HTTP代理

|

20天前

|

机器学习/深度学习算法数据挖掘

解析静态代理IP改善游戏体验的原理

静态代理IP通过提高网络稳定性和降低延迟，优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面，确保更流畅、高效的游戏体验。

91HTTP代理

65 22 22

解析静态代理IP改善游戏体验的原理

ximagine

|

17天前

|

编解码缓存 Prometheus

「ximagine」业余爱好者的非专业显示器测试流程规范，同时也是本账号输出内容的数据来源！如何测试显示器？荒岛整理总结出多种测试方法和注意事项，以及粗浅的原理解析！

本期内容为「ximagine」频道《显示器测试流程》的规范及标准，我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备，是我们目前制作内容数据的重要来源，我们深知所做的仍是比较表面的活儿，和工程师、科研人员相比有着不小的差距，测试并不复杂，但是相当繁琐，收集整理测试无不花费大量时间精力，内容不完善或者有错误的地方，希望大佬指出我们好改进！

ximagine

78 16 17

「ximagine」业余爱好者的非专业显示器测试流程规范，同时也是本账号输出内容的数据来源！如何测试显示器？荒岛整理总结出多种测试方法和注意事项，以及粗浅的原理解析！

蓝易云

|

8天前

|

Java 数据库开发者

详细介绍SpringBoot启动流程及配置类解析原理

通过对 Spring Boot 启动流程及配置类解析原理的深入分析，我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发，还能够在面对问题时，迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。

蓝易云

46 12 12

jack_wee

|

6天前

|

开发框架监控 JavaScript

解锁鸿蒙装饰器：应用、原理与优势全解析

ArkTS提供了多维度的状态管理机制。在UI开发框架中，与UI相关联的数据可以在组件内使用，也可以在不同组件层级间传递，比如父子组件之间、爷孙组件之间，还可以在应用全局范围内传递或跨设备传递。

jack_wee

24 2 3

周周的奇妙编程

|

2月前

|

机器学习/深度学习自然语言处理搜索推荐

自注意力机制全解析：从原理到计算细节，一文尽览！

自注意力机制（Self-Attention）最早可追溯至20世纪70年代的神经网络研究，但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性，捕捉复杂依赖关系，并支持并行化训练，显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU，自注意力机制在自然语言处理（NLP）、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询（Q）、键（K）和值（V）向量，计算缩放点积注意力得分，应用Softmax归一化，以及加权求和生成输出。自注意力机制提高了模型的表达能力，带来了更精准的服务。

周周的奇妙编程

3797 46 46

码农小达人

|

4天前

|

机器学习/深度学习自然语言处理算法

生成式 AI 大语言模型（LLMs）核心算法及源码解析：预训练篇

生成式 AI 大语言模型（LLMs）核心算法及源码解析：预训练篇

码农小达人

40 0 0

别惹CC

|

2月前

|

存储分布式计算 Hadoop

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

本文介绍了如何借鉴Hadoop的设计思想，使用Java实现其核心功能MapReduce，解决海量数据处理问题。通过类比图书馆管理系统，详细解释了Hadoop的两大组件：HDFS（分布式文件系统）和MapReduce（分布式计算模型）。具体实现了单词统计任务，并扩展支持CSV和JSON格式的数据解析。为了提升性能，引入了Combiner减少中间数据传输，以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性，鼓励Java开发者学习Hadoop以拓展技术边界。

别惹CC

62 7 7

热门文章

最新文章

从Excel到Hadoop：数据规模的进化之路

DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型

DeepSeek模型的突破：性能超越R1满血版的关键技术解析

深度解析淘宝商品详情API接口：解锁电商数据新维度，驱动业务增长

通义灵码AI程序员实战：从零构建Python记账本应用的开发全解析

小红书笔记详情 API 接口：获取、应用与收益全解析

C 408—《数据结构》易错考点200题（含解析）

企业级API集成方案：基于阿里云函数计算调用DeepSeek全解析

DNS协议详解

免费通配符SSL证书不限制申请-2025最新渠道解析

XML DOM 解析器

XML DOM 解析器

PHP 8新特性解析及其对现代Web开发的影响

Java内存模型深度解析与实践应用

PHP 8新特性深度解析与应用实践

1688 商品详情的 API 接口获取全解析

InnoDB的隔离级别实现机制深度解析18

容器化技术解析：Docker与Kubernetes的协同应用

深入解析深度学习中的正则化技术

Git秘籍大公开：从基础概念到高级技巧的全面解析

相关课程

更多

第八届大学生创新创业大赛阿里命题IoT赛题解析

云计算工程师解析与实战-网络专家篇（体验版）

深入解析Docker容器化技术

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

相关电子书

更多

神龙云服务器产品及技术深度解析

弹性创造价值：基于ECS的最佳性价比实践解析

又快又稳：阿里云下一代虚拟交换机解析

相关实验场景

更多

通过云拨测对指定服务器进行Ping/DNS监测

搭建Hadoop环境

推荐镜像

更多

DNS

squid

NTP

下一篇

通义万相：视觉生成大模型再进化