文档备案控制台

开发者社区问答正文

Hive优化中数据倾斜是什么？

Hive优化中数据倾斜是什么？

展开

收起

芯在这 2021-12-11 23:32:15 382 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

hive.groupby.skewindata=true：数据倾斜时负载均衡，当选项设定为true，生成的查询计划会有两个MRJob。

第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key

有可能被分发到不同的Reduce中，从而达到负载均衡的目的；

第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。

2021-12-11 23:32:37

赞同展开评论

问答分类：

SQL HIVE

问答标签：

Hive数据倾斜 Hive优化

问答地址：

开发者社区 > 数据库 > 问答

相关问答

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

290

2

0

阿里云E-MapReduce如果hive改不了，oss本身能优化吗？

316

1

0

Flink写hive，按分钟分区，在使用-s恢复数据时出现堆溢出的问题，有啥优化的办法吗？

402

1

0

Flink sql读取hive性能慢，请问有优化的方案吗？

1196

1

0

Hive优化中合并小文件是什么？

481

1

0

Hive优化中排序是什么？

458

1

0

Hive优化中Combiner聚合是什么？

710

1

0

Hive优化中分组是什么？

437

1

0

Hive优化中多个group by合并是什么？

548

1

0

Hive优化中推测执行是什么？

587

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

矩阵账号批量直播，单套软件最多能同时运营几个账号？

能不能靠谱点？每天更新，自己发现不了问题？测试人员都栽了吗？

完全没有直播经验，上手 AI 直播需要多久？

动态变量话术引擎对直播有什么作用？

在vs code安装Qoder CN，登录并订阅了个人专业版，无法使用，急急急

相关文章

什么是 HTAP 数据库？一体化行列存实时分析 —— 阿里云 PolarDB-X HTAP 能力解析

分布式数据库分片策略怎么设计？透明分片实践 —— 阿里云 PolarDB-X

性能瓶颈的“诊断优先级”：CPU、IO、内存、网络，先查哪个？

数据库 AI 助手是什么？智能运维与诊断详解 —— 阿里云 PolarDB-X

分布式 JOIN 怎么优化？下推、广播、Co-located JOIN 实战 —— 阿里云 PolarDB-X

相关解决方案

更多

基于数据闪回，快速恢复数据

文件下载加速及成本优化

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

还有其他疑问?