文档备案控制台

开发者社区问答正文

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。

发现了个问题，kafka一共30个分区，会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢了整个处理时间。
但从获取数据的数量上来看并没有发生数据倾斜。处理时间却相差这么多?![P_YP514V_N_KIN5O2CSZQ15](https://yqfile.alicdn.com/16d2d2e8407f593de5ce2cbe73f7e71351fc0f6d.png)

展开

收起

游客tpv44ii4se2r4 2019-06-11 18:36:43 5499 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

阿学

是不是使用$SPARK_HOME/sbin/start-all.sh启动spark集群，慢的那个worker节点是否按照slaves中配置的主机名启动（验证一下是不是按照ip启动，在默认8080端口可以看到），因为一方是主机名集合一方是ip地址集合结果造成字符串比较时找不到，本地化全部变成ANY，也就是随机获取计算节点那就意味着可能要将数据发送到计算节点上，会造成计算不均匀，不是本地化计算，基本上都没有在本机上节点运行，所以会产生大量IO，就会很慢

2020-03-29 22:31:52

赞同展开评论
bigbigtree

确定具体慢的task对应的kafka的分区id，确定分区id所在的物理环境，排查机器是否有问题

2020-03-19 19:59:21

赞同展开评论

问答分类：

消息中间件分布式计算 Kafka Spark 云消息队列 Kafka 版

问答标签：

云消息队列 Kafka 版数据 apache spark数据 apache spark kafka spark云消息队列 Kafka 版云消息队列 Kafka 版spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

为什么选择从Kafka + Spark Streaming转向Flink？

224

1

0

Spark Structured Streaming 和 Kafka 在数据完整性推理上有何不足？

215

1

0

我公司现在要把azure上的Kafka集群和spark集群迁移到阿里云上能直接通过服务器迁移中心

293

4

0

maxcomputer 提交spark jar 包任务报错： [TASK=564401841

404

2

0

spark写kafka，如何让分区分布均衡呢？

482

1

0

请教一个问题。我在用spark读取hbase数据时，默认是一个regoin一个task。发现有些re

1360

0

0

有大佬知道这是怎么回事么 flink读不到kafka数据

1503

1

0

麻烦问一下，我们现在的架构是希望数据统一从 Kafka 中出，但是又想用 Flink CDC，请问

1215

1

0

请问大家，我怎么根据 Kafka 中的 Debezium 数据在 MySQL 中建库、建表、同步数据

1152

0

0

任务编排里的跨库spark sql 数据加工用不了

837

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

WordPress站点怎么进行速度优化？

阿里云CDN如何加速配置？

建立的网站被DDoS攻击怎么排查？

电脑下载有https证书问题，浏览器有时加载不出网页显示ERR_SSL_VERSION_OR_CIP

相关文章

硫化厂数字孪生管理平台量化指标与误差控制规范

自建商城平台交易架构与合规分账路径全流程设计分享

5层通信栈：多Agent集群为什么不能用一种方式通信

库存还在靠 Excel 管？聊聊供应链可视化与实时库存分析到底该怎么设计

消息队列解耦技术｜从红薯稳控体能节奏，解读跨境业务异步调度优化方案

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

还有其他疑问?