备案控制台

开发者社区> 问答> 正文

定位造成的任务反压中，引起数据倾斜的原因是什么？

已解决

定位造成的任务反压中，引起数据倾斜的原因是什么？

展开

收起

詹姆斯邦德00 2022-10-17 11:16:37 282 0

来自：开发者社区官方技术圈

1 条回答

写回答

取消提交回答

胡嘞嘞

推荐回答

数据倾斜的现象就是由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。

目前我们所知道的大数据处理框架，比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据，是因为这些框架都利用了分布式计算的思想，集群中多个计算节点并行，使得数据处理能力能得到线性扩展。

在实际生产中 Flink 都是以集群的形式在运行，在运行的过程中包含了两类进程。其中 TaskManager 实际负责执行计算的 Worker，在其上执行 Flink Job 的一组Task，Task 则是我们执行具体代码逻辑的容器。理论上只要我们的任务 Task 足够多就可以对足够大的数据量进行处理。

但是实际上大数据量经常出现，一个 Flink 作业包含 200 个 Task 节点，其中有199 个节点可以在很短的时间内完成计算。但是有一个节点执行时间远超其他结果，并且随着数据量的持续增加，导致该计算节点挂掉，从而整个任务失败重启。我们可以在 Flink 的管理界面中看到任务的某一个 Task 数据量远超其他节点。

以上内容摘自《企业级云原生白皮书项目实战》电子书，点击https://developer.aliyun.com/ebook/download/7774可下载完整版

2022-10-17 19:19:55

赞同展开评论打赏

问答地址：

开发者社区 > 开发者社区官方技术圈 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

如何进行数据倾斜排查？

303

1

0

排查数据倾斜有几种方式？

330

1

0

分析定位造成反压的原因时，如何判断是数据倾斜的问题？

350

1

0

数据倾斜是flink任务中大家都会遇到的高频问题，一旦发生数据倾斜会带来哪些影响呢？

621

1

0

当数据源 source 消费不均匀时，数据倾斜的现象如何解决？

315

1

0

分析定位造成反压的原因时，如何判断是下游的数据源性能的问题？

699

1

0

面对这种常见的flink任务数据倾斜情况，一般有什么定位排查方案？

845

1

0

一般数据倾斜不都是会造成反压吗？为什么我这里却没有造成反压

409

1

0

生产过程中，数据量不大，flinkcdc 一般多少并行度?

246

0

0

cdc历史数据的时候给到较多资源和并行度，增量时候减少资源和并行度这个是可行的么？我看增量的时候只有

293

1

0

来源圈子

更多

收录在圈子:

开发者社区官方技术圈

69990

+ 订阅

阿里云开发者社区官方技术圈，用户产品功能发布、用户反馈收集等。

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699814

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818279

3 据说在家办公的程序员是这样写代码的？ 1792274

4 阿里云开放端口权限 689884

5 《阿里云服务器从入门到精通》—论坛精华帖汇总（2013.8.21更新） 599467

6 如何升级配置 536058

7 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522423

8 【精品问答】python技术1000问(1) 513986

9 Flink Forward Asia 2021 有奖问答 512793

10 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456914

11 OceanBase 使用动画（持续更新） 359251

12 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329716

13 OSS存储服务-客户端工具 321314

14 为体验实验室取一个新名字。 307281

15 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303822

16 Win Server 2003-2016 加密勒索事件必打补丁合集 295145

17 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283587

18 安全组详解，新手必看教程 277244

19 写code还是做管理，开发者如何进行职业规划？ 268409

20 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255820

1 分享AI代码助手的使用体验 123

2 分享一张AI生成的“老照片”，讲讲你与它的故事 159

3 函数计算一键部署ComfyUI绘画平台的优势有哪些？ 530

4 域名控制台 267

5 2024过半，AI技术发展到哪个阶段了？ 877

6 二维码全球每天使用量达 100 多亿，会被用完吗？ 438

7 OpenKruise现在好多docker.io的镜像都拉不了，你们有这种情况吗？ 204

8 轻量应用服务器自建docker无法拉取镜像 139

9 你是如何使用AI集成工具提升工作效率的？ 952

10 图像生成技术飞速发展，我们距离个人化艺术创造的旅程还有多远？ 1184

11 宜搭的两个表单如何实现联动 168

12 宜搭子表单怎么实现图片压缩 107

13 你的编程能力从什么时候开始突飞猛进的？ 888

14 阿里云主力模型直降97%，两百万Tokens进入一元时代，对AI行业有哪些影响？ 636

15 大模型服务平台百炼和DashScope灵积模型服务有什么区别 106

16 如何批量修改子表单 125

17 乘风问答官6月排位赛开启！Xiaomi Watch S3手表等好礼等你赢~ 451

18 宜搭是否可以实现上传文件审批通过后自动上传至指定钉钉知识库中呢？ 110

19 请问怎么计算表单中某个条件下的金额总和？ 186

20 短信服务收不到验证码提示触发号码天级流控Permits:40 164

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载