【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用

简介: 本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲,主要分享了开发一个非凡的流应用不得不考虑的几个问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲,如果你想开发一个非凡的流应用就不得不考虑以下的问题:

  • 怎么管理补偿?
  • 怎么管理状态?
  • 如何让Spark Streaming工作能够从失败中恢复?能够避免一些失败吗?
  • 如何优雅地关闭流的工作?
  • 如何监控和管理流的工作吗?
  • 怎样才能更好地在流中管理DAG?
  • 什么时候使用检查点,什么时候不用?
  • 为什么在流数据源时需要WAL?


67f4d5fb5973809a82e08823e8b88f422f246526

a97a89412b03310359a5a9a556c9970c2c759657

12fa14ea19c8c4c32e331551f5ffc3169e770a46

dc64fdefebce80933fb318ad88fa639ed9586c97

5d52c462f1f49b52df7ace0b5886f77ac11cecfd

06b326871bd9ca934a7c730eec9b7c06593faf80

796dcc001bbd24a80bf151c3bf27c2e35cf463bd

8474bcf579c671bd9458841124240da7d8b2fdd3

efbf59b8be4d89cae0034b280d811052e1673c91

ed98ad44ef704a2e18d2e4cff14e1980a2523691

4b3da108b5a5d37766c3381c88941507975d2365

775635cc47ae59accb4c992a5c79d8517644ec05

d4aceb81595484427787ca95ca10891ed0f4a24f

4e7600b17c4d0763fb3c5b3c70bfe911bae52629

70f32699c32ae19f275d56be77a2e0d6c5decabe

8903434576385936dee4462db748082e1d181f3d

aef03d6be7076e3247b0ed8feafb0b268fc8f836

c39b439c9708b41436c63ecaa6b73480c6424a79

960046cc1f363ee56005fb82bbe3050d4ccfd104

3b05700c4d62c35d20bae7d5e29477215cbefba0

424891a4778524292eca02a05fc3b80bbc454af4

afa3cf8500ef1f140f069cb9aecf540087affa03

b825e24bfb7c9383faa3177952bbab6e5578a177

ae6c6833412015bd38989e58562d5915c8a2bdb0

cfa8178ef46ff9102922bef8988922eb94ee2259

5fdb18561aff2d23f16e501459ad014767aca0d6

e0959afcccedbd9271e60f43980bf17caf318daa

eb03eec6aad7553e3aa5b12009e933b2b8075e83

60e91c40c66601a749eb3ba02829869afda9a281

2ca32822de01b8257e88c9c645c90a625f46ba6a

9efa9c857e4b3a2744cb110c14713ff5bc2b9bca

bc6f6dc6b7b2c2b6e5dac3fc009aa3c8785d3bb4

279aac05c06e691f1776588d71e9ac0c53a891e8

a8f2abd55f06ba647b4bf9a9fe412715b30b4c85

c1f6034b7d1ff47a581a827f22320d30792939b2

5b0c066c599b7c0510af4e41d439f42f4b6e273a

213b3d6b45620bf276df93128f23fa1bc4fe2c23

696ca580bca699665ec1c5816467c94b637da331

fadd3cf51a90a908368714ae68fe1ee444234c5c

3dc9e401509500a57c3dbb92ce56fe0e8d3fd51c

91078cb6dff273d34363d474530a543d060f8e7d

f0628e09d021a04f2f0097425f70f16a1f92827a

a08a254b543cc9761f6b668f7a59b23b2e967b2b

b48bb9cd1f2c6eb6cc981a37ab55140658ce84b6

24f620ee607ca672ae018c2374eab2bab0c5d971

08ba355eb3c69e3fb0ef3dd7dfc3b82a5d58993a

5b22514c1dbfcfda4b8695527295ae5dd13e7c6c

e9869fd28fc880c926d16da09ad9fe4c6608d11f

2bffc9c62731ae3e9dcceca44aff76be9b938647

0394082246e84068b4e48842530dd757a452dd30

857be51e76c843a5ffeac3f421d5073b3c889981

80621c22173dec2c559282aab42d36ccebecb53c

f28a6bdabefd89429cf01ea11f55d5fc7101e2fd

6b1a780775cf3c0e64d7f7f9575050b95e5d6884

e60976b3a765a7f9f72dfc0d693af64f7bb35742

a08b008c7521fd314c55ceed479e7f2be8bf5078

e6830ac55312ac83589d12f87708590ebeef58ae

22f77909ca0ca1d98322df1a245ad0fcf8593f8c

c11e5b9461d6bf7a278b0d52fa1941dcec85468c

6ba4a8a026ac19c719d1f0ec1d9e58b5648b2cb9

1f83e5d5eb2066c6de1bd95799eee52768681204

b320f97855acbcc00ec3cf8f19f511b740b550bf

1bae39e5a6d0e336b956a456886adf3c283f7cc8

f18b0edfd66d30903c063024430c731b35bb63e5

0c9ecdbf4bd310b33196d8a3fcbd898866dec11f

02f73dec924029193b969626c85970446ee99e13

01973fc199ce792718d284f5856d970a3286c820

025ce321d1ae76706ad6ca270cb5dc55c545e721

b97b05320bdbcc61f042dcd8b1077e50f0e816b1

c7212c16f67eae7490afc9d5285db631d50246fa

f8d32b1045c7d1c895e3454022021a08bd6fa985

26b61421978a1183a39631e3e6a0ceabe4177d1c

5360cad3432ff50e65ccd3c53e9e134578dc6e29

d4ff687586b65cfbb63ba262766091abb0dc2646

36c0a0677bb35778c3848e955ea4c7b967a13c91

d214338930e027049214647c9a2d68c3cb81d800

e8a48e8cb9ab226d56ebf1f4475154fffe13cba2

759d53cfa62504ebc1d8df7794b097588104adcb

b4489aa82afb167c5652fff92876e39dfe3a1b29

相关文章
|
2月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
237 1
|
7月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
629 0
|
7月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
260 0
|
SQL 分布式计算 Java
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中, Apache Spark 以其独特的优势脱颖而出。
158 0
|
分布式计算 安全 Java
SPARK 应用如何快速应对 LOG4J 的系列安全漏洞
SPARK 应用如何快速应对 LOG4J 的系列安全漏洞
|
7月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
4月前
|
分布式计算 大数据 数据处理
Apache Spark的应用与优势:解锁大数据处理的无限潜能
【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统,在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及,Spark必将成为企业实现数字化转型和业务创新的重要工具。未来,我们有理由相信,Spark将继续引领大数据处理技术的发展潮流,为企业创造更大的价值。
|
4月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
84 3
|
5月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
156 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
4月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
66 0