如何解决数据倾斜

简介: 如何解决数据倾斜

1、数据倾斜的现象

部分Reduce一直运行,时间明显比已完成的长20倍以上


2、解决办法

2.1 单表聚合(group by+sum())

1、开启map端预聚合:hive.map.aggr=true

2、打散、二次聚合:

开启参数:hive.groupby.skewindata=true

sql手动实现


2.2 多表关联(join)

1、大小表:map join

2、大大表:

方法一:将倾斜的key单独拿出来做mapjoin

hive。optimize。skewjoin=true

方法二:打散倾斜key,扩容对方的key

sql手动实现


3、倾斜原因

1、数据本身是不均匀的(最常见,最正常的)

2、null值

没有意义的null值,过滤掉

有意义的null值,正常处理

相关文章
|
6月前
|
SQL 分布式计算 HIVE
Spark数据倾斜问题分析和解决
Spark数据倾斜问题分析和解决
89 0
|
SQL 消息中间件 分布式计算
12中方法,彻底搞定数据倾斜!
12中方法,彻底搞定数据倾斜!
|
分布式计算 负载均衡
MapReduce中数据倾斜的产生和解决办法详解
MapReduce中数据倾斜的产生和解决办法详解
MapReduce中数据倾斜的产生和解决办法详解
|
3月前
|
存储 中间件 数据库连接
|
19天前
|
存储 数据采集 监控
如何解决取模算法中数据倾斜的问题?
【10月更文挑战第25天】在实际应用中,需要根据具体的数据特点、系统架构和业务需求,选择合适的方法或方法组合来优化取模算法的数据分片效果。
|
2月前
|
关系型数据库 MySQL
mysql查询速度慢怎么解决?
mysql查询速度慢怎么解决?
62 2
|
4月前
|
SQL 数据处理
云架构数据倾斜问题之数据倾斜如何解决
云架构数据倾斜问题之数据倾斜如何解决
|
4月前
|
SQL 存储 开发者
云架构数据倾斜问题之聚合操作导致数据膨胀如何解决
云架构数据倾斜问题之聚合操作导致数据膨胀如何解决
|
4月前
|
SQL 分布式计算 MaxCompute
云架构数据倾斜问题之排序优化中的CLUSTER BY如何解决
云架构数据倾斜问题之排序优化中的CLUSTER BY如何解决
|
4月前
|
人工智能 分布式计算 数据处理
数据倾斜问题之数据倾斜的定义如何解决
数据倾斜问题之数据倾斜的定义如何解决
74 0