备案控制台

开发者社区问答正文

MapReduce的各个阶段有什么优化空间吗?

MapReduce的各个阶段有什么优化空间吗?

展开

收起

芯在这 2021-12-06 22:12:15 381 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

数据输入默认情况下TextInputFormat对任务的切片是按文件切, 无论文件大小, 都会给一个单独的切片, 交给一个maptask, 这时如果输入的是大量小文件, 就会产生大量的maptask, 处理效率极低.

最好的解决方法就是在预处理阶段将小文件合并, 再上传到HDFS处理分析.

但如果已经上传到HDFS了, 就可以用另一种切片方法来补救, CombineTextInputFormat, 它的切片逻辑和TextInputFormat不同, 可以将多个小文件从逻辑上规划到一个切片中, 然后把这些小文件交给一个maptask.

运行时间

启动一个MapReduce任务, map阶段和reduce阶段都会有并行的task共同处理任务, 这些task都需要开启JVM, 然后初始化, 而这些JVM任务是很花费空间的, 如果运行一个20-30s的任务需要进行开启, 初始化, 停止JVM操作很是浪费. 所以我们应该尽量把数据量控制在能让每个task运行1分钟以上.

数据倾斜

可以通过对原始数据进行抽样得到的结果集来预设分区

2021-12-06 22:21:20

赞同展开评论

问答分类：

分布式计算

问答标签：

mapreduce优化 mapreduce空间开源大数据平台 E-MapReduce优化

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce删除文件但是空间没有得到释放

130

1

0

E-MapReduce Phoenix如何优化

56

1

0

阿里云E-MapReduce如果hive改不了，oss本身能优化吗？

212

1

0

E-MapReduce的HDFS启动过程很慢如何优化

225

1

0

E-MapReduce的HDFS使用优化建议

162

1

0

MapReduce在IO传输中该如何优化方法呢？

894

1

0

MapReduce在Reduce阶段该如何优化方法呢？

866

1

0

MapReduce在Map阶段该如何优化方法呢？

887

1

0

MapReduce优化方法主要从哪些方面考虑呢？

777

1

0

MapReduce优化经验是什么？

359

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

12月冬日咖啡礼｜大模型解决方案邀你来体验

12月冬日咖啡礼｜阿里云 AI 体验馆邀你来体验

向量检索+大模型推理：DB+AI 如何构建 RAG 智能知识系统？

阿里云的Docker ce 镜像不能正常安装

使用魔塔社区的免费NoteBook下载模型收费吗

相关文章

ETL vs ELT：到底谁更牛？别被名字骗了，这俩是两种世界观

Parquet 和 ORC 到底有啥区别？别再云里雾里了，咱今天把列式存储聊明白！

Pandas处理大规模数据：分块读取与内存优化实战指南

分布式计算调度器浅谈：YARN、Kubernetes、Mesos 到底图啥？

Spark 批处理调优这点事：资源怎么要、Shuffle 怎么省、序列化怎么选？我用这些年踩过的坑告诉你

还有其他疑问?