【Spark Summit East 2017】分布式实时流处理:Why and How

简介: 本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理。


7d91825d8c6ed2108fed872b0fa9a4333861b7ba

6bb4df04a27abc5c8ee9468c2f9ce3acaeb210d2

0287f0c5acbae084bea9d71037186e6c835bbed8

73b2ee4ecefb9ec2e54abc35d9e5d15c0c1ec5c9

e1104abe623cfdb289523ac5d1a98540ecbe4ea0

782e4ab0009b08ab43361870b6a550c8c744e33c

18015ba64ca66715d45ae7853faa6c61238f352c

6ebcee827f96faf451fd273b312306281d13dcfa

a72f9bd6f1261ac3207261e609707db5e97da570

5dcf9374aa9688b9903ff5120f0fa029a89d3c75

298fd7f607c731b2c6bbf366effaa4a02c9455a3

897fe8e72700a51f6140456d9dfb865352c95376

0d2a41e62d6ea8e14c61227b0966bde01bffb5c9

5e6c0bcb6c0f403b2c3b30b56ab5ce0d109b6a21

e54942ce9123f16b84ecd47ae45f87790a33c8ea

e3b195db8df27893b56709597a37e58248151648

f5790fb8884d252fa4a59a9938759fceaf6066f0

0ce2c78f330e1ed28a84fda64b67555a2f087ff8

74258a2e0dc931e3fa9a90a2361de2c95613ad27

ede3a60235156b50641cc82dc0e1e5fd8205feb6

f0ebb6c12884118414d7fcd1ce234a87281e74de

2f00f2ed5de1e92bd2361ed91a033c3e9d01ccbf

b692bf888cd29d479cf7d5ae0c80210c4213505b

2dbadaabfa0e56a480cc65eaa3d9674f6c41bc67

6deeb65fecd9e4968a7f3c6d7883b00eda84cba2

8d9ab60f980aca9ef9635bdd4006c9af23eff716

66b571c549107256e2b604d01d0e0d6c6f435641

1cd73e7be2e43c217414af379f8219c7b09b8f2a

4aac63aeb1f30dc7e2d06dd5d7ceb0fcaccfeea4

fcae25f0932006887dbdc57da7fdecad693ea8d2

a4ff8138cebc72d3cabca2f1c55d200ca3fdaa67

9396bbcb6969d1cabfb9cac9ed65336a1b04ab2d

1123b3130458ab39d40befd06e7cb66eef9ca7c6

535f5694c8d4dad33bef365364d5382bcd21d5a9

33b4ffbd82958ecdc1af34c30449a3d686326319

518e36e997e862816c43995aa7e05e74d370d112

914d3b80cd1788bcdd4edcee49ff00b11aa855c3

710e04c3a9e7b3c724213af15faede735f507996

fb3a8f9035a28a54535a2eaad809dd1d4c073e68

829ad0c76ba3739187579346f5749d6d6dc8f7ad

相关文章
|
6月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
775 5
|
6月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
717 1
|
9天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
消息中间件 Java Kafka
"Kafka快速上手:从环境搭建到Java Producer与Consumer实战,轻松掌握分布式流处理平台"
【8月更文挑战第10天】Apache Kafka作为分布式流处理平台的领头羊,凭借其高吞吐量、可扩展性和容错性,在大数据处理、实时日志收集及消息队列领域表现卓越。初学者需掌握Kafka基本概念与操作。Kafka的核心组件包括Producer(生产者)、Broker(服务器)和Consumer(消费者)。Producer发送消息到Topic,Broker负责存储与转发,Consumer则读取这些消息。首先确保已安装Java和Kafka,并启动服务。接着可通过命令行创建Topic,并使用提供的Java API实现Producer发送消息和Consumer读取消息的功能。
69 8
|
6月前
|
分布式计算 Hadoop 大数据
分布式计算框架比较:Hadoop、Spark 与 Flink
【5月更文挑战第31天】Hadoop是大数据处理的开创性框架,专注于大规模批量数据处理,具有高扩展性和容错性。然而,它在实时任务上表现不足。以下是一个简单的Hadoop MapReduce的WordCount程序示例,展示如何统计文本中单词出现次数。
190 0
|
5月前
|
消息中间件 存储 Java
Kafka 详解:全面解析分布式流处理平台
Kafka 详解:全面解析分布式流处理平台
200 0
|
6月前
|
SQL 分布式计算 Hadoop
Spark分布式内存计算框架
Spark分布式内存计算框架
156 0
|
6月前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)
|
6月前
|
SQL 分布式计算 Java
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
73 0