【Spark Summit East 2017】分布式实时流处理:Why and How

简介: 本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理。


7d91825d8c6ed2108fed872b0fa9a4333861b7ba

6bb4df04a27abc5c8ee9468c2f9ce3acaeb210d2

0287f0c5acbae084bea9d71037186e6c835bbed8

73b2ee4ecefb9ec2e54abc35d9e5d15c0c1ec5c9

e1104abe623cfdb289523ac5d1a98540ecbe4ea0

782e4ab0009b08ab43361870b6a550c8c744e33c

18015ba64ca66715d45ae7853faa6c61238f352c

6ebcee827f96faf451fd273b312306281d13dcfa

a72f9bd6f1261ac3207261e609707db5e97da570

5dcf9374aa9688b9903ff5120f0fa029a89d3c75

298fd7f607c731b2c6bbf366effaa4a02c9455a3

897fe8e72700a51f6140456d9dfb865352c95376

0d2a41e62d6ea8e14c61227b0966bde01bffb5c9

5e6c0bcb6c0f403b2c3b30b56ab5ce0d109b6a21

e54942ce9123f16b84ecd47ae45f87790a33c8ea

e3b195db8df27893b56709597a37e58248151648

f5790fb8884d252fa4a59a9938759fceaf6066f0

0ce2c78f330e1ed28a84fda64b67555a2f087ff8

74258a2e0dc931e3fa9a90a2361de2c95613ad27

ede3a60235156b50641cc82dc0e1e5fd8205feb6

f0ebb6c12884118414d7fcd1ce234a87281e74de

2f00f2ed5de1e92bd2361ed91a033c3e9d01ccbf

b692bf888cd29d479cf7d5ae0c80210c4213505b

2dbadaabfa0e56a480cc65eaa3d9674f6c41bc67

6deeb65fecd9e4968a7f3c6d7883b00eda84cba2

8d9ab60f980aca9ef9635bdd4006c9af23eff716

66b571c549107256e2b604d01d0e0d6c6f435641

1cd73e7be2e43c217414af379f8219c7b09b8f2a

4aac63aeb1f30dc7e2d06dd5d7ceb0fcaccfeea4

fcae25f0932006887dbdc57da7fdecad693ea8d2

a4ff8138cebc72d3cabca2f1c55d200ca3fdaa67

9396bbcb6969d1cabfb9cac9ed65336a1b04ab2d

1123b3130458ab39d40befd06e7cb66eef9ca7c6

535f5694c8d4dad33bef365364d5382bcd21d5a9

33b4ffbd82958ecdc1af34c30449a3d686326319

518e36e997e862816c43995aa7e05e74d370d112

914d3b80cd1788bcdd4edcee49ff00b11aa855c3

710e04c3a9e7b3c724213af15faede735f507996

fb3a8f9035a28a54535a2eaad809dd1d4c073e68

829ad0c76ba3739187579346f5749d6d6dc8f7ad

相关文章
|
1天前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
599 5
|
1天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
8月前
|
SQL 分布式计算 数据库连接
大数据Spark分布式SQL引擎
大数据Spark分布式SQL引擎
229 0
|
7月前
|
分布式计算 资源调度 监控
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
|
1天前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)
|
1天前
|
SQL 分布式计算 Java
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
50 0
|
1天前
|
分布式计算 并行计算 Hadoop
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
138 0
|
9月前
|
消息中间件 SQL 分布式计算
Spark分布式计算框架之SparkStreaming+kafka
Spark分布式计算框架之SparkStreaming+kafka
80 0
|
机器学习/深度学习 分布式计算 Apache
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
基于Apache* Spark* 的大规模分布式机器学习实践
101 0
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址

热门文章

最新文章