开发者社区> 不吃西红柿丶> 正文

大数据常见问题:数据倾斜

简介: 大数据常见问题:数据倾斜
+关注继续查看

前言


offer收割系列介绍:


1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!


2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考


3、涵盖技术:mysql、hadoop、hive、Spark、Flink、Kudu、Impala等...


正文


一、数据倾斜表现


1)hadoop中的数据倾斜表现:


有一个多几个Reduce卡住,卡在99.99%,一直不能结束。

各种container报错OOM

异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer

伴随着数据倾斜,会出现任务被kill等各种诡异的表现。


2)hive中数据倾斜


一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。


3)Spark中的数据倾斜


Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:


Executor lost,OOM,Shuffle过程出错;

Driver OOM;

单个Executor执行时间特别久,整体任务卡在某个阶段不能结束;

正常运行的任务突然失败;


二、数据倾斜产生原因


我们以Spark和Hive的使用场景为例。


他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。


一般来说,数据倾斜原因有以下几方面:


1)key分布不均匀


000000000000000.png


2)建表时考虑不周


我们举一个例子,就说数据默认值的设计吧,假设我们有两张表:


user(用户信息表):userid,register_ip


ip(IP表):ip,register_user_cnt


这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话,会出现一种情况:


user表中的register_ip字段,如果获取不到这个信息,我们默认为null;


但是在ip表中,我们在统计这个值的时候,为了方便,我们把获取不到ip的用户,统一认为他们的ip为0。


两边其实都没有错的,但是一旦我们做关联了,这个任务会在做关联的阶段,也就是sql的on的阶段卡死。


3)业务数据激增


比如订单场景,我们在某一天在北京和上海两个城市多了强力的推广,结果可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。


然后我们要统计不同城市的订单情况,这样,一做group操作,可能直接就数据倾斜了。


三、解决数据倾斜思路


很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。


1)业务逻辑


我们从业务逻辑的层面上来优化数据倾斜,比如上面的两个城市做推广活动导致那两个城市数据量激增的例子,我们可以单独对这两个城市来做count,单独做时可用两次MR,第一次打散计算,第二次再最终聚合计算。完成后和其它城市做整合。


2)程序层面


比如说在Hive中,经常遇到count(distinct)操作,这样会导致最终只有一个Reduce任务。


我们可以先group by,再在外面包一层count,就可以了。比如计算按用户名去重后的总用户量:


(1)优化前


只有一个reduce,先去重再count负担比较大: select name,count(distinct name)from user;


(2)优化后


// 设置该任务的每个job的reducer个数为3个。Hive默认-1,自动推断。


set mapred.reduce.tasks=3;


// 启动两个job,一个负责子查询(可以有多个reduce),另一个负责count(1):


select count(1) from (select name from user group by name) tmp;


3)调参方面


Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜,合理利用它们就能解决大部分问题。


4)从业务和数据上解决数据倾斜


很多数据倾斜都是在数据的使用上造成的。我们举几个场景,并分别给出它们的解决方案。


数据有损的方法:找到异常数据,比如ip为0的数据,过滤掉

数据无损的方法:对分布不均匀的数据,单独计算

hash法:先对key做一层hash,先将数据随机打散让它的并行度变大,再汇聚

数据预处理:就是先做一层数据质量处理,类似于数据仓库维度建模时,底层先处理数据质量


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
19491 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
28775 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
22387 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
16159 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
20527 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
23564 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
14887 0
+关注
不吃西红柿丶
CSDN内容合伙人丨全站Top 6、华为云享专家、HDZ核心组成员、信息技术智库公号作者、大数据&Python领域优质创作者
166
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载