【Spark Summit East 2017】基于Elastic Spark Streaming的自动伸缩系统

简介: 本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱即用的在不中断实时Spark Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱即用的在不中断实时Spark Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。


45fff46c0399f001cac9f2354430f339c9629e03

294c349ad56278f7d577e2043dfeaa190b82141e

6de9f96b6f9f373016f4372d5b4367bf0c21c034

f4fc3e0017c7088b852e685e06f4c276563eb4bf

7c3bc84df5f1680b7a736e01210edbfa3895b324

e0db973e5cc5e39be9169f91302bc11fc2a7d6f6

c7612d2ad0377a47a3e7b47de62fca0a02a67a06

8b54653f9cdd59ceb760efb6b66faf2b7be8c8ac

85ee7d5cfaed7c3b608506b267940c35d4c64373

246f3ab087699ae6d70f01a23dcad9cd4bf935bc

9bff919a1b869468b73bcd488e2a038cc97f1096

032820b734db3ab1d236a61154ac3cecfd9b1c98

ab0dfbac8445ef32e6b5cd6b3c1c612ac344c763

4db63ccb9314f2da6813e6af3fc5704efe7511dd

1e5986c8461dab0f2814b60a33b48ab9b5d34729

相关文章
|
1月前
|
分布式计算 Java Apache
Apache Spark Streaming技术深度解析
【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
60 0
|
2月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
41 1
|
2月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
70 3
|
4月前
|
分布式计算 Java Scala
如何处理 Spark Streaming 的异常情况?
【6月更文挑战第16天】如何处理 Spark Streaming 的异常情况?
182 56
|
2月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
76 0
|
3月前
|
分布式计算 监控 数据处理
Spark Streaming:解锁实时数据处理的力量
【7月更文挑战第15天】Spark Streaming作为Spark框架的一个重要组成部分,为实时数据处理提供了高效、可扩展的解决方案。通过其微批处理的工作模式和强大的集成性、容错性特性,Spark Streaming能够轻松应对各种复杂的实时数据处理场景。然而,在实际应用中,我们还需要根据具体需求和资源情况进行合理的部署和优化,以确保系统的稳定性和高效性。
|
2月前
|
分布式计算 Java Linux
【Deepin 20系统】Linux 系统安装Spark教程及使用
在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。
43 0
|
3月前
|
分布式计算 Apache Spark
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题