文档备案控制台

开发者社区问答正文

Hadoop Map阶段的shuffle是如何进行优化的？

Hadoop Map阶段的shuffle是如何进行优化的？

展开

收起

游客fq2cv4o24bhvc 2021-12-05 10:31:07 370 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客zxdz7pcxbx2uc

1、增大环形缓冲区大小

2、增大环形缓冲区溢写的比例

3、减少对溢写文件的merge次数

4、不影响实际业务的前提下，采用combiner提前合并，减少I/O

2021-12-05 10:32:54

赞同展开评论

问答分类：

分布式计算 Hadoop

问答标签：

hadoop优化 Map shuffle Map优化 hadoop shuffle hadoop map

问答地址：

开发者社区 > 大数据 > 问答

相关问答

请问一下，flink有办法让上游数据均匀分配到下游的map算子么，试了下shuffle和rebal？

380

3

0

DataWorks中M 开头的是 map 阶段，这种 J 开头的是 shuffle 阶段吗？

222

2

0

在map阶段前先合并小文件，然后增大block，map输出合并，reduce输出合并这些优化参数有吗

598

1

0

Hadoop中map代码是什么呀？

1702

1

0

在map中的shuffle阶段中map的作用是什么？

475

1

0

Join倾斜优化需要读取范围Map，例如读Map1-2的数据，常规的做法是哪两种？

455

1

0

hadoop和spark的shuffle相同和差异具体有哪些啊？

839

1

0

MapReduce在Map阶段该如何优化方法呢？

962

1

0

hadoop中Map阶段的操作方法有哪些？

367

1

0

MaxCompute Sql中的Map端一读多写的场景及优化是什么？

541

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder CN,wiki收费为什么没有提示,以前qoder国际版不是免费的吗,一次跑了几百Cred

阿里云服务器官网在哪？有几种云服务器类型？

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

阿里云服务器问题解答，你关心的问题都在这！

阿里云 ECS 公网 IP有什么更换技巧？

相关文章

【赵渝强老师】Hadoop HDFS的回收站和快照

阿里云智能决策平台对接使用完全指南：从架构解析到生产级集成实战

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

阿里云账号：计算型/通用型/内存型价格与场景区别

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

还有其他疑问?