备案控制台

开发者社区> 问答> 正文

mapreduce中split过程是什么？

mapreduce中split过程是什么？

展开

收起

芯在这 2021-12-10 23:49:34 452 0

1 条回答

写回答

取消提交回答

真的很搞笑

split过程：在map task执行时，它的输入数据来源于HDFS的block。在MapReduce中，map task只读取split。Split与block的对应关系可能是多对一，默认是一对一。输入分片存储的并不是数据本身，而是一个分片长度和一个记录数据的位置的数组。inputFormat一行一行的读取文件，按行分割形成<key,value>对。其中key为偏移量，value为每行数据内容。

2021-12-10 23:49:47

赞同展开评论打赏

问答分类：

分布式计算

问答标签：

mapreduce split

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

使用emr的mapreduce在map阶段怎么获取split文件的路径呢？

2877

1

0

E-MapReduce Hadoop类型集群的ranger-plugin中没有enablehi...

31

1

0

E-MapReduce集群KAFKA指标介绍

30

1

0

为什么我的包年包月E-MapReduce集群中按量ECS节点/抢占式ECS实例也会产生EMR服务费

29

1

0

ECS已释放为什么E-MapReduce集群还提示尚有ECS实例存在不支持释放集群

25

1

0

如何修改E-MapReduce集群的root用户的登录密码

27

1

0

E-MapReduce集群StarRocks执行SQL报错:Execute again aft...

24

1

0

客户在E-MapReduce集群的FLink历史服务器中遇到了服务停止的问题，并且尝试重启后仍...

20

1

0

E-mapreduce集群新增task节点组是否会导致数据丢失？

22

0

0

E-MapReduce集群如何打开kafka组件的JMX端口

40

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818816

2 据说在家办公的程序员是这样写代码的？ 1792868

3 阿里云开放端口权限 690159

4 如何升级配置 536229

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522725

6 【精品问答】python技术1000问(1) 514097

7 Flink Forward Asia 2021 有奖问答 512880

8 OceanBase 使用动画（持续更新） 359350

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329782

10 OSS存储服务-客户端工具 321502

11 为体验实验室取一个新名字。 307435

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304027

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295300

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284101

15 安全组详解，新手必看教程 277322

16 写code还是做管理，开发者如何进行职业规划？ 268981

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255867

18 阿里云手机和阿云浏览器连接问题专帖 235675

19 请问阿里云邮箱如何开启SMTP服务啊！ 225801

20 一个备案号，如何备案多个域名？ 223624

1 运动旅游开启新潮流，哪些科技手段能助力你的行程呢？ 235

2 “AI+儿童陪伴”，是噱头还是趋势？ 330

3 客户在按照安全升级指导将Spring Framework版本升级至5.3.39版本后，仍然被云... 104

4 客户询问云监控、应用分组以及事件订阅的具体配置方法和区别 237

5 slb带宽限制是多少 688

6 P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧 693

7 【云端读书会第1期】读《10分钟打造专属AI助手》，你有哪些心得？ 1190

8 请问2024年云栖大会的分享ppt资料怎么下载？或者有大佬分享一下吗？ 149

9 产品库存表中如何锁定出库数量？ 284

10 我在云栖做动手，一起参与吗？ 1757

11 99元云服务器，你最pick哪种新玩法？ 4184

12 打开游戏报错 A D3D11-compatible GPU (Feature Level 11.0， 323

13 请问钉钉知识库里，如何批量下载文件夹里面的文件 607

14 open webui的RAG功能根本用不起来 355

15 镜像很久没有更新了 149

16 全天候24小时无所不知AI助手是如何炼成的？ 2003

17 阿里云百炼的data = json.loads(json_string)是什么意思呀？ 894

18 modelscope-funasr的FunClip怎么安装的？ 890

19 Rabbit MQ 和 Rocket MQ 两者之间有什么区别？ 497

20 RocketMQ-spring-boot-starter有支持mq5.0以上的的坐标吗？ 100

相关课程

更多

Hadoop 分布式计算框架 MapReduce

883

89

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

LEARNINGS USING SPARK STREAMING & DATAFRAMES FOR WALMART SEARCH 立即下载

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】 立即下载

《Apache Flink-重新定义计算》PDF下载 立即下载