【Spark Summit East 2017】Bulletproof Jobs:大规模Spark处理模式

简介: 本讲义出自Sim Simeonov在Spark Summit East 2017上的演讲,主要介绍了Spark工作中的三个防弹原则以及他们的系统原则和设计模式。这三个原则分别是:幂等性、行级结构化日志以及不变的查询结构。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Sim Simeonov在Spark Summit East 2017上的演讲,主要介绍了Spark工作中的三个防弹原则以及他们的系统原则和设计模式。这三个原则分别是:幂等性、行级结构化日志以及不变的查询结构。


4410f9aad5bf63251ecd468972d517a969d3f6b5

156d11fd4ea146f4dbb36078a01df0060d172451

360a45a94eb24c11bd723ab3e3805cb8fd3a5518

5ac2afad491d77a1fd92e984cd8550673f01ee7b

128de0a865ca8634241f612594f7055d7b9c851c

7e8098289f02c6cb96b21e3467639d9641cd3243

4668ac335639738f9ba791e969b7da51373fcbff

64faae5c6b06b66d65bc4e104b8dee381fcb57b2

90b7ffae49761aa408e44f81adeb3560b52f23d3

7b558c8f67683b98ec725aa90dccb5f0a765c4ae

4e4f52be0fd01650a4f9b32fa36cb27903983910

b3ee8dc9c70dafcb7306fce7aa12b90c8a22b137

ca3ffb68b7c6bf3af292378e3ec3d96cf83032e5

6bd7fad7c2b2f2f39640b2fd7d786701aac8c17d

c11afb56c60b8d40256dd1831524adaddac4f3c6

38dcd27545f3711f37dfb636596ec3988e5abc4e

8bf68a2699cadb0b91e2913e6f6e6c5ee2049dfb

598f8c89067d61359d9d4d83bcde5f66dc656c13

e7fb28d8337f196bb51f829df3a1c07df6d2ebf8

8e180399f8575a92781a92482b2f14bdd4fefef5

1ddbe2a1d697650366c4a09d42f604376d2ee008

e1ccd03d4fe0869922e0f39911bb9017d11e20ba

31f7b4b236e7f384677e857cf0acac703618e9e3

7f169152833267b9693111eeb240f6b18bbc7cc3

509a81512a647acfebcbb39efdf2781850b89ba7

2ae922dc1c26beb99aab457135df47b0d491002a

617d4069ffa9cbe23543373f63618d917accb661

2e3bf582171a4afe7c78c597bb72d1a4dcfe4690

bc88fd621a36d8010bd83badc7c5d84a5aa4b43f

1a1d81a280b9c5882cdb7f4f55961ce7053329af

44909a8d29bc70105defcba232c64fa9c6ce4b1e

60e48ddf4ce1cb5c1900139d2f691e259de598fb


相关文章
|
7月前
|
分布式计算 大数据 数据处理
Apache Spark:提升大规模数据处理效率的秘籍
【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性,包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧,如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍,可以提升大规模数据处理效率,发挥Spark在实际项目中的潜力。
593 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
199 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
86 2
|
4月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
283 3
|
5月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23733 42
|
5月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
5月前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之 Spark Local模式启动报错,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
6月前
|
存储 分布式计算 监控
Spark Standalone模式是一种集群部署方式
【6月更文挑战第17天】Spark Standalone模式是一种集群部署方式
95 7
|
7月前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
153 3
|
7月前
|
分布式计算 资源调度 调度
利用SparkLauncher实现Spark Cluster模式下的远端交互
利用SparkLauncher实现Spark Cluster模式下的远端交互
143 0