【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

简介: 本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具—— Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道。
+关注继续查看

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具—— Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道。


c5fc63435aac547d70066e3be0a4e6e7c528b053

bee1280438148f57ee3ebc08d8008a72670b9810

cca1f403223803dc8f30250acdd9bc34b4b7ff34

20b4fe39bcf08989c3d88aa31760c5b129e32790

90c3b2ffed4a2f5b4170196af8a6968887129bf3

2ef638d771b3ae0484717f7b118b0db3aed68f34

0ce9eb575080426b2fa1b4ff8b8d6a95adf128e0

230e2c5b66bcee7f9db83e07ab234ef743f41211

3815a69bbbc9ac929923eb0350f9d76d335d9b30

76af9a2d169141af97945a562c2e2cbaa1c8c1cc

056784e8f5ea311b9ecd7f374a2f9338e5b60142

f2c0e00133fe97c9fbcead33a02737efea3d064d

65c2283b3c6f6045e71b77c1a334903c5dd67f54



ab448da55d44dd72e15d789bf7cb6853d9c1ed37

e471b65f8fcdf0bab9ea77e54d4128561865b8b0

0bf51c50e6a2f1490ec027eadc808cb78db4536f

490fe59051c781e83cc1610079e6bab2f3a2e236

d71c2a7dfd0cfb0a2a8a07d55537b478574111ea

5a2ec6f99402c867ec0e0d418e58df1092bc67d7

ea96ae877426a9cbc83c86bce2bbad365759f006

89bf1f94c4c77ef1c96c72e96f92dca6bdd69c93

9ba6d56ce6b1abf579286da499a7d4d25db54a62

21bc294477c058266cc8e92883ff7d36b23111b0

37604312182721855813d33db75d5986c9707893

19571f1d9dbccc50b9cdd3bda181804f133b1476

相关文章
|
1月前
|
消息中间件 分布式计算 Kafka
195 Spark Streaming整合Kafka完成网站点击流实时统计
195 Spark Streaming整合Kafka完成网站点击流实时统计
12 0
|
3月前
|
消息中间件 分布式计算 Kafka
大数据Spark Structured Streaming集成 Kafka
大数据Spark Structured Streaming集成 Kafka
30 0
|
3月前
|
消息中间件 分布式计算 Kafka
大数据Spark Streaming集成Kafka
大数据Spark Streaming集成Kafka
67 0
|
4月前
|
消息中间件 存储 分布式计算
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(二)
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(二)
|
4月前
|
消息中间件 分布式计算 Kafka
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(一)
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(一)
|
4月前
|
消息中间件 SQL 分布式计算
Spark分布式计算框架之SparkStreaming+kafka
Spark分布式计算框架之SparkStreaming+kafka
51 0
|
10月前
|
消息中间件 分布式计算 关系型数据库
流式读取热搜词汇并解析,urllib+Kafka+Spark
紧接上文,本次对于上次的优化是增加了kafka的插件,用简单消费者和生产者在本地window系统完成模拟,每五分钟爬取一次百度热搜,条数基本为145条,然后消费者来消费数据,写入到spark,下次的优化应该就是从sparksql转化为sparkstreaming,并直接整合kafka,而不是中间转row再写入。
70 0
|
11月前
|
SQL 消息中间件 分布式计算
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
501 0
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
|
12月前
|
消息中间件 分布式计算 Kafka
Spark Streaming实时流处理项目实战笔记——使用KafkaSInk将Flume收集到的数据输出到Kafka
Spark Streaming实时流处理项目实战笔记——使用KafkaSInk将Flume收集到的数据输出到Kafka
|
12月前
|
消息中间件 分布式计算 Java
Spark Streaming实时流处理项目实战笔记——Kafka Consumer Java API编程
Spark Streaming实时流处理项目实战笔记——Kafka Consumer Java API编程
推荐文章
更多