文档备案控制台

开发者社区问答正文

conslidate是如何优化Hash shuffle时在map端产生的小文件？

conslidate是如何优化Hash shuffle时在map端产生的小文件？

展开

收起

茶什i 2019-10-29 14:06:03 1725 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

珍宝珠

1）conslidate为了解决Hash Shuffle同时打开过多文件导致Writer handler内存使用过大以及产生过多文件导致大量的随机读写带来的低效磁盘IO；2）conslidate根据CPU的个数来决定每个task shuffle map端产生多少个文件，假设原来有10个task，100个reduce，每个CPU有10个CPU
那么使用hash shuffle会产生10100=1000个文件，conslidate产生1010=100个文件
备注：conslidate部分减少了文件和文件句柄，并行读很高的情况下（task很多时）还是会很多文件

2019-10-30 15:05:09

赞同展开评论

问答标签：

优化Map Map文件 Map shuffle Map优化 Map hash

问答地址：

开发者社区 > 云计算 > 问答

相关问答

智能媒体管理使用sdk压缩文件，sdk提示It is not a map value.是什么原因呢？

379

1

0

如何将py文件资源传入ODPS DataFrame的map/apply方法的resources参数？

722

3

0

请问一下，flink有办法让上游数据均匀分配到下游的map算子么，试了下shuffle和rebal？

390

3

0

数据表分区200M，2个文件，为啥需要启动9个map instance？

246

1

0

Serverless工作流如何通过Map处理一个OSS bucket下的文件清单？Python语言

259

1

0

DataWorks中M 开头的是 map 阶段，这种 J 开头的是 shuffle 阶段吗？

242

2

0

云效我配置了镜像地址，但是生成的yaml文件的镜像地址不对，会自动加一个 map，这是怎么回事？

175

0

0

ModelScope进行微调后，新增类别如何修改coco_label_map.pkl文件呢？

621

2

0

在map阶段前先合并小文件，然后增大block，map输出合并，reduce输出合并这些优化参数有吗

615

1

0

Map Reduce中为什么使用文件呢？

1643

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

动态变量话术引擎对直播有什么作用？

新手如何进行OSS 图片处理 CDN 加速？

什么年代了，qoder cn还不支持多agent协同一起完成任务

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

还有其他疑问?