【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

简介: 本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具—— Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具—— Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道。


c5fc63435aac547d70066e3be0a4e6e7c528b053

bee1280438148f57ee3ebc08d8008a72670b9810

cca1f403223803dc8f30250acdd9bc34b4b7ff34

20b4fe39bcf08989c3d88aa31760c5b129e32790

90c3b2ffed4a2f5b4170196af8a6968887129bf3

2ef638d771b3ae0484717f7b118b0db3aed68f34

0ce9eb575080426b2fa1b4ff8b8d6a95adf128e0

230e2c5b66bcee7f9db83e07ab234ef743f41211

3815a69bbbc9ac929923eb0350f9d76d335d9b30

76af9a2d169141af97945a562c2e2cbaa1c8c1cc

056784e8f5ea311b9ecd7f374a2f9338e5b60142

f2c0e00133fe97c9fbcead33a02737efea3d064d

65c2283b3c6f6045e71b77c1a334903c5dd67f54



ab448da55d44dd72e15d789bf7cb6853d9c1ed37

e471b65f8fcdf0bab9ea77e54d4128561865b8b0

0bf51c50e6a2f1490ec027eadc808cb78db4536f

490fe59051c781e83cc1610079e6bab2f3a2e236

d71c2a7dfd0cfb0a2a8a07d55537b478574111ea

5a2ec6f99402c867ec0e0d418e58df1092bc67d7

ea96ae877426a9cbc83c86bce2bbad365759f006

89bf1f94c4c77ef1c96c72e96f92dca6bdd69c93

9ba6d56ce6b1abf579286da499a7d4d25db54a62

21bc294477c058266cc8e92883ff7d36b23111b0

37604312182721855813d33db75d5986c9707893

19571f1d9dbccc50b9cdd3bda181804f133b1476

相关文章
|
22天前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
31 0
|
22天前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
59 0
|
22天前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
46 0
|
22天前
|
SQL 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
27 0
|
22天前
|
存储 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
35 0
|
22天前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
28 0
|
消息中间件 分布式计算 大数据
【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测
本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想。
2510 0
|
22天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
46 0
|
1天前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
13 6
|
1天前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
11 1

热门文章

最新文章