文档备案控制台

开发者社区问答正文

对于Spark中的数据倾斜问题你有什么好的方案？

对于Spark中的数据倾斜问题你有什么好的方案？

展开

收起

茶什i 2019-10-28 16:05:33 1482 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

1）前提是定位数据倾斜，是OOM了，还是任务执行缓慢，看日志，看WebUI 2)解决方法，有多个方面 · 避免不必要的shuffle，如使用广播小表的方式，将reduce-side-join提升为map-side-join ·分拆发生数据倾斜的记录，分成几个部分进行，然后合并join后的结果 ·改变并行度，可能并行度太少了，导致个别task数据压力大 ·两阶段聚合，先局部聚合，再全局聚合 ·自定义paritioner，分散key的分布，使其更加均匀详细解决方案参考博文《Spark数据倾斜优化方法》

2019-10-28 16:28:40

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark方案 apache spark数据倾斜

问答地址：

开发者社区 > 大数据 > 问答

相关问答

大数据spark和深度学习的推荐方案是什么？

81

1

0

Spark 当中数据倾斜具体解决方案是什么呢？

677

1

0

Spark 当中数据倾斜是如何造成的呢？

634

1

0

Spark 当中数据倾斜具体应该是什么意思呢？

669

1

0

spark中的数据倾斜的后果是什么？

463

1

0

spark中的数据倾斜的原因是什么？

571

1

0

spark中的数据倾斜的现象是什么？

545

1

0

Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思？

986

1

0

Spark，一种快速数据分析替代方案：报错

880

1

0

spark 与 tensorflow 结合有没有方案？

4358

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

相关文章

关于阿里云 ODPS（MaxCompute）的全面介绍和应用

MaxCompute SQL AI 实践

MaxCompute SQL AI实战：两个真实业务场景的高效落地

一行 SQL 搞定外卖平台评价智能分析 —— MaxCompute SQL AI 实战

相关解决方案

更多

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

高效存储和处理多媒体数据

还有其他疑问?