开发者社区大数据文章正文

【Spark Summit East 2017】Spark中的容错：从生产实践中获取的经验

2017-02-20 1981

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Jose Soltren在Spark Summit East 2017上的演讲，主要介绍了Spark容错中的螺母和螺栓，他首先简述了Spark中的各种容错机制，然后讨论了YARN上的Spark、调度与资源分配，在演讲中还对于一些用户案例进行了探讨研究并给出了一些需要的工具，最后分享了未来Spark中容错未来的发展方向比如调度器和检查点的变化。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Jose Soltren在Spark Summit East 2017上的演讲，主要介绍了Spark容错中的螺母和螺栓，他首先简述了Spark中的各种容错机制，然后讨论了YARN上的Spark、调度与资源分配，在演讲中还对于一些用户案例进行了探讨研究并给出了一些需要的工具，最后分享了未来Spark中容错未来的发展方向比如调度器和检查点的变化。

eda36212c56a131101de1d93f8388de93d3bcd7f

1bc27318154d3e50eaafc51ba0ccd3ea09eb139d

b486c25feca26c9c9df65ceeff3ab583e27db972

052b9cb7ae278bc92e94ec51ac1addb81b319052

99e29d29550a86908023b807c86e5c68a8833a41

686df38703cefc8673fe1ce7902ddb89f6e30975

e0d5fc459c5cb3b32a9677ef4a45a5ca0b3804e1

852eac129bbcc1e04b97988f66791ceada022a1f

04bd88b6fef6132011d297efce33513596704d4e

858dbea2077386db0570054f25ef8904aabc301c

061d33b2268a781b4ec580706049aab2f67cc005

3cc6ef37f1f171a58d04488868dd066ebec5e03b

826273977cc0d1a01cf84237c4bd84f05b02f359

b35c9991e1e2ce89b6056650ce913bd4a8d9d595

5a7c47c25f86581254b2e38bd2ad57faa3e2831d

695cc106a81a404fcda585ed617fd79a8576f2c5

708cdaee506831f6fdfdfebd8e9e66176443bbca

5b28f643a33c256257a68c5519577c5d8781db9e

d744e673a649527a513d1fb70477427cb1bd6d5b

194325a279f1d472935868ce25df79160355b636

84ae58927d8ad85e673a5d959ece3fadb094cb7e

0468f5a8a050b8be0a09de95a2639b3d9afc29e3

f19314279b84f6537e9343dd76c33827753abdde

f55462edabdf8a94447d0653237de0982e98b4b7

a3f650eb01f3304861bd13cb2c4b1b81daf20715

文章标签：

分布式计算

大数据

Spark

关键词：

apache spark实践

apache spark容错

apache spark summit

apache spark summit实践

apache spark summit east

小猫吃鱼569

BookSea

8月前

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中， Apache Spark 以其独特的优势脱颖而出。

BookSea

70 0 0

1941623231718325

2天前

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

24 3 3

FrancekChen

15天前

分布式计算 Shell 开发工具

Spark编程实验二：RDD编程初级实践

FrancekChen

24 1 1

热烈的马

21天前

存储分布式计算大数据

【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解（图文解释）

热烈的马

93 0 0

阿里云云原生

7月前

分布式计算 Kubernetes Serverless

Hago 的 Spark on ACK 实践

阿里云云原生

476 0 0

一名技术开发者

8月前

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

一名技术开发者

86 0 0

袋鼠云

SQL JSON 分布式计算

提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在企业级应用中，数据的安全性和隐私保护是极其重要的，为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性，数栈基于 Apache Ranger 实现了 Spark SQL 对数据处理的权限控制，本文将重点描述数栈如何基于 Ranger 赋予了 Spark SQL 在权限管控方面，更强的管控力度、更丰富的能力。

袋鼠云

197 0 0

梦想new的出来

SQL 分布式计算 Java

五、【计算】Spark原理与实践（下） | 青训营笔记

梦想new的出来

180 0 0