文档备案控制台

开发者社区问答正文

如何实现sparkStreaming读取kafka中的数据？

如何实现sparkStreaming读取kafka中的数据？

展开

收起

芯在这 2021-12-08 11:39:04 398 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

receiver：是采用了kafka高级api,利用receiver接收器来接受kafka topic中的数据，从kafka接收来的数据会存储在spark的executor中，之后spark streaming提交的job会处理这些数据，kafka中topic的偏移量是保存在zk中的。

在Receiver的方式中，Spark中的partition和kafka中的partition并不是相关的，所以如果我们加大每个topic的partition数量，仅仅是增加线程来处理由单一Receiver消费的主题。但是这并没有增加Spark在处理数据上的并行度.

对于不同的Group和topic我们可以使用多个Receiver创建不同的Dstream来并行接收数据，之后可以利用union来统一成一个Dstream。

在默认配置下，这种方式可能会因为底层的失败而丢失数据. 因为receiver一直在接收数据,在其已经通知zookeeper数据接收完成但是还没有处理的时候,executor突然挂掉(或是driver挂掉通知executor关闭),缓存在其中的数据就会丢失. 如果希望做到高可靠, 让数据零丢失,如果我们启用了Write Ahead Logs(spark.streaming.receiver.writeAheadLog.enable=true）该机制会同步地将接收到的Kafka数据写入分布式文件系统(比如HDFS)上的预写日志中. 所以, 即使底层节点出现了失败, 也可以使用预写日志中的数据进行恢复. 复制到文件系统如HDFS，那么storage level需要设置成 StorageLevel.MEMORY_AND_DISK_SER，也就是KafkaUtils.createStream(…, StorageLevel.MEMORY_AND_DISK_SER)

direct:在spark1.3之后，引入了Direct方式。不同于Receiver的方式，Direct方式没有receiver这一层，其会周期性的获取Kafka中每个topic的每个partition中的最新offsets，之后根据设定的maxRatePerPartition来处理每个batch。（设置spark.streaming.kafka.maxRatePerPartition=10000。限制每秒钟从topic的每个partition最多消费的消息条数）。

2021-12-08 12:08:10

赞同展开评论

问答分类：

消息中间件 Kafka 云消息队列 Kafka 版

问答标签：

云消息队列 Kafka 版数据 apache spark数据 sparkstreaming云消息队列 Kafka 版云消息队列 Kafka 版sparkstreaming

问答地址：

开发者社区 > 微服务 > 问答

相关问答

请教一个问题。我在用spark读取hbase数据时，默认是一个regoin一个task。发现有些re

1309

0

0

有大佬知道这是怎么回事么 flink读不到kafka数据

1438

1

0

麻烦问一下，我们现在的架构是希望数据统一从 Kafka 中出，但是又想用 Flink CDC，请问

1173

1

0

请问大家，我怎么根据 Kafka 中的 Debezium 数据在 MySQL 中建库、建表、同步数据

1115

0

0

任务编排里的跨库spark sql 数据加工用不了

803

0

0

cdc同步mysql到Kafka时若mysql历史数据(大概十几亿条)较多 startup设置

619

0

0

storm&spark2中dateframe可以从不同的数据源获取数据吗？如果可以都可以获取哪些啊？

1254

1

0

spark 中的数据是以什么方式存在的啊？

2474

1

0

flink cdc内置了kafka 监听binlog文件的时候是把所有监听的数据写入kafka的

1725

4

0

flink版本1.14.2 kafka版本0.11.0.1 精确一次模式生产数据报错，有遇到过的吗？

1822

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

2026年阿里云5月新用户特惠｜官方入口直达与优惠全览

阿里云2核2G云服务器多少钱一年？

阿里云高性价比服务器｜2026年企业用户云产品大促优惠全解

2026年阿里云新用户限时特惠汇总｜38元秒杀、99元长效、免费试用全解析

2026年阿里云大促全览｜云服务器收费、新老用户优惠与性能测评汇总

相关文章

Llama3.2 11B 边缘侧接入，DМ‌XΑ‌РΙ 稳接低算力设备环境

【Redis】 Redis 7.0+全栈能力四大核心模块：Redis 7.0+新特性、Redis向量数据库扩展、RAG场景应用、Stream消息队列实现

Claude 4.6 语义对齐测试，DМ‌XΑ‌РΙ 驱动高阶逻辑调用

同城外卖平台系统设计详解：搭建同城外卖系统的核心技术实现路径

Laravel+React架构加持，taocarts破解跨境代购系统开发核心痛点

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

还有其他疑问?