文档备案控制台

开发者社区问答正文

sparkstreaming异步消费kafka疑问

假设A topic有3个分区(p0、p1、p2)，Spark streaming分配1个Executor,3个CPU。
streaming会在这个Executor上启动3个Task(t0、t1、t2),这3个task会分别消费A topic
上3个分区的数据，然后消费完将offset写到zk上。
假设t1和t2消费的快，而t0很慢。我sparkstreaming是以异步方式消费的，那么这
时Executor上会再启动3个Task(t0、t1、t2),那这3个task很快就消费完了,然后消费完
将offset写到zk上。这时，第一批次的t0也消费完了，那么这时不是会造成offse覆盖？

展开

收起

hbase小能手 2018-11-08 14:04:34 2598 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

hbase小能手

HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。阿里云HBase技术团队共同探讨HBase及其生态的问题。

你好，
1、spark streaming是基于mini batch的；在你的场景只有第一批次的所有task(t0、t1、t2)都运行完了之后，才会去调度第二批次的(t0、t1、t2)task，不会有offset覆盖的问题。
2、至于那个消费慢的t0需要调查原因呢，如果是因为分区t0的数据比较多，spark streaming的receiver可以按照读取的数据条数做切分的。
3、另外你这边的“sparkstreaming是以异步方式消费” 不是太理解

2019-07-17 23:13:00

赞同展开评论

问答分类：

消息中间件分布式计算 Kafka 流计算 Spark 云消息队列 Kafka 版

问答标签：

异步云消息队列 Kafka 版 sparkstreaming云消息队列 Kafka 版云消息队列 Kafka 版sparkstreaming 云消息队列 Kafka 版消费

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Kafka如何实现同步异步复制？

205

1

0

请教个问题flink消费kafka特别慢5.条每秒，如何优化

1778

1

0

这种数据，怎么设置kafka source，才能让flink 继续消费？

760

0

0

我的kafka设置成从提交点开始消费但是每次重启都是从头开始消费这是为什么啊？

1561

1

0

请教下flink消费kafka后sink算了报错了然后重试了失败后依然提交了offset，这个怎么解

1025

1

0

有没有用oracle cdc同步2个数据库的我用cdc->kafka ->消费kafka拼接s

949

0

0

大佬们，问下，用flinksql 消费kafka然后开60秒的窗，写入kafka中，每秒大概5W条

991

1

0

flink 消费kafka老是报这个错请问为啥？

681

1

0

flink cdc 消费mongodb变更发到kafka用哪种格式合适？

779

0

0

flink消费kafka里cdc同步的数据，消费时怎么可以保证顺序

879

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

2026年阿里云怎么安装Hermes/OpenClaw？配置指南

2026年阿里云老用户优惠合集：长效普惠+节点大促+专项补贴说明

2026年阿里云新用户云服务器活动：官方入口与高性价比机型推荐

HappyHorse快乐小马模型在哪下载？

2026年阿里云企业用户大促入口全解：官网与控制台直达路径

相关文章

【Kafka核心】分区副本、ISR机制、消息存储机制、segment文件、稀疏索引、顺序写

【Kafka核心】消息投递语义、Exactly-Once实现、幂等性、事务消息

【Kafka核心】三大核心模块：消费者组、重平衡Rebalance、offset提交

【Kafka核心】Kafka高性能的四大核心支柱：零拷贝、批量发送、页缓存、压缩

【Kafka核心】Kafka 3.0+ KRaft模式（替代ZooKeeper）核心原理与优势

还有其他疑问?