备案控制台

开发者社区

开发者社区数据库文章正文

Hive group by 数据倾斜问题处理

2023-12-29 42

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive group by 数据倾斜问题处理

一、背景

发现一个10.19号的任务下午还没跑完，正常情况下，一般一个小时就已经跑完，而今天已经超过3小时了，因此去观察实际的任务，发现9个map 其中8个已经完成，就一个还在run，说明有明显的数据倾斜

二、数据倾斜问题处理和Hive SQL 优化

原始sql

insert overwrite table raw_search_behavior partition(dt='2022-10-19')
select cookie_id,event_query,count(*) as cnt,
max(from_unixtime(unix_timestamp(event_time), 'yyyyMMddHHmmss')) as last_dt
from raw_query
where dt >= '20220718' and dt <= '20221019' and event_query is not null
group by cookie_id,event_query

发现有使用group by

优化后sql

insert overwrite table raw_search_behavior partition(dt='2022-10-19')
select split(tkey,'_')[1] as cookie_id,event_query, sum(cnt) as cnt,max(last_dt) as last_dt from
(
   select concat_ws('_', cast(ceiling(rand()*99) as string), cookie_id) as tkey,event_query, count(*) as cnt,
 max(from_unixtime(unix_timestamp(event_time), 'yyyyMMddHHmmss')) as last_dt
        from raw_query
 where dt >= '20220718' and dt <= '20221019' and event_query is not null
     group by concat_ws('_', cast(ceiling(rand()*99) as string), cookie_id),event_query
) temp
group by split(tkey,'_')[1],event_query;

三、观察任务

在一小时内结束，并且没有哪个节点耗时较长

文章标签：

SQL

HIVE

关键词：

Hive数据倾斜

诸葛子房

目录

相关文章

爱吃糖的范同学

|

21天前

|

SQL 分布式计算算法

【Hive】数据倾斜怎么解决？

【4月更文挑战第16天】【Hive】数据倾斜怎么解决？

爱吃糖的范同学

30 8 8

极客李华

|

4月前

|

SQL 数据采集分布式计算

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop和Hive中的数据倾斜问题及其解决方案

极客李华

48 0 0

Jast

|

5月前

|

SQL HIVE

Hive数据倾斜处理集合

Hive数据倾斜处理集合

Jast

42 0 0

晓之以理的喵~~

|

SQL 分布式计算负载均衡

Hive数据倾斜的原因以及常用解决方案

Hive数据倾斜的原因以及常用解决方案

晓之以理的喵~~

34200 0 0

BIT_666

|

SQL 大数据 HIVE

Hive - distinct && group by 求 UV,PV 实战

给定数据表中包含用户 uid 和用户是否点击广告的标签 label，经常有需求统计用户的下发，打开 UV,PV，下面通过 Hive 实现统计并分析 distinct 与 group by 的性能与使用场景。

BIT_666

234 0 0

Hive - distinct && group by 求 UV,PV 实战

云祁

|

SQL 分布式计算监控

【Hive】（十五）Hive 数据倾斜与调优

【Hive】（十五）Hive 数据倾斜与调优

云祁

363 0 0

【Hive】（十五）Hive 数据倾斜与调优

花笙

|

SQL 负载均衡 HIVE

Hive----数据倾斜

数据倾斜

花笙

77 0 0

skdg26tulds2a

|

SQL 数据采集 HIVE

实战 | Hive 数据倾斜问题定位排查及解决（二）

Hive 数据倾斜怎么发现，怎么定位，怎么解决

skdg26tulds2a

392 0 0

实战 | Hive 数据倾斜问题定位排查及解决（二）

skdg26tulds2a

|

SQL 分布式计算 Java

实战 | Hive 数据倾斜问题定位排查及解决（一）

Hive 数据倾斜怎么发现，怎么定位，怎么解决

skdg26tulds2a

478 0 0

实战 | Hive 数据倾斜问题定位排查及解决（一）

skdg26tulds2a

|

SQL 缓存分布式计算

Hive千亿级数据倾斜解决方案

Hive千亿级数据倾斜解决方案

skdg26tulds2a

416 0 0

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

【Hive】Hive优化有哪些？

【Hive】请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思？

【Hive】Hive的函数：UDF、UDAF、UDTF的区别？

【Hive】Hive有索引吗？

【Hive】Hive的两张表关联，使用MapReduce怎么实现？

【Hive】数据倾斜怎么解决？

Hive【基础知识 05】常用DDL操作（数据库操作+创建表+修改表+清空删除表+其他命令）

【Hive】sort by 和 order by 的区别

Hive【基础知识 02-2】【Hive CLI 命令行工具使用】【详细举例-包含测试脚本文件】

DataWorks报错问题之集成hive数据源报错如何解决

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

Apache Hudi与Hive集成手册

DataWorks常见问题之hive jdbc加载数据错误如何解决

Hive中日期处理函数的使用（date_format、date_add、date_sub、next_day）

Hive窗口函数案例总结

Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理（一篇即可学会在日常工作中使用Sqoop）

Hive Delegation Token 揭秘

Flink依赖问题之connector hive依赖冲突如何解决

Flink报错问题之flink-1.11写hive报错如何解决

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Comparison of Spark SQL with Hive

Hive Bucketing in Apache Spark

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）