备案控制台

开发者社区问答正文

用 mapreduce 怎么处理数据倾斜问题

用 mapreduce 怎么处理数据倾斜问题

展开

收起

愚笨如你 2020-02-14 19:49:59 2155 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

bigbigtree

有损的方法：找到异常数据，过滤掉无损的方法：对分布不均匀的数据，单独计算先对key做一层hash，先将数据打散让它的并行度变大，再汇集

2020-03-19 20:06:40

赞同展开评论
愚笨如你

本质：让各个分区的数据均匀分布，并且根据自己的业务特点设置合适的 partition 策略，具体的设置方法可以上网查询一下，这里就不过多的介绍了。如果事先不知道业务数据的分布规律，只能利用随机抽样之后生成 partition 策略后再做处理

2020-02-14 19:50:15

赞同展开评论

问答分类：

分布式计算

问答标签：

mapreduce数据倾斜开源大数据平台 E-MapReduce数据倾斜开源大数据平台 E-MapReduce怎么处理数据倾斜

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MapReduce的数据倾斜现象有哪些呢？

806

1

0

mapreduce优化中数据倾斜是什么？

368

1

0

MapReduce计算中的解决数据倾斜的方案有什么？

412

1

0

MapReduce计算中的数据倾斜的解决思路是什么？

351

1

0

MapReduce计算中的数据倾斜产生的原因是什么？

436

1

0

Mapreduce的数据倾斜问题优化是怎么实现的？

348

1

0

MapReduce中减少数据倾斜的方法是什么？

377

1

0

E-MapReduce集群KAFKA指标介绍

133

1

0

为什么我的包年包月E-MapReduce集群中按量ECS节点/抢占式ECS实例也会产生EMR服务费

111

1

0

ECS已释放为什么E-MapReduce集群还提示尚有ECS实例存在不支持释放集群

113

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

相关文章

XXLJOB：超长定时任务慢节点优化实践

五、Hive表类型、分区及数据加载

阿里云服务器Arm计算架构解析：主要实例规格、性能特点、适用场景与价格参考

六、Hive 分桶

九、HQL DQL七大查询子句

还有其他疑问?