开发者社区大数据文章正文

【Spark Summit EU 2016】Spark中的自动检查点

2017-02-15 2243

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲，主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确，并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变，所以需要在Spark工作流中使用自动检查点来对以上要求进行保障，本讲义就主要介绍了Spark中自动检查点的使用。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲，主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确，并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变，所以需要在Spark工作流中使用自动检查点来对以上要求进行保障，本讲义就主要介绍了Spark中自动检查点的设计动机、工作原理以及使用方法。

d13878735feba91dae96abfecca483235f28428f

7197eb27996be34ee3fd8334861afe7db90e0f24

bb07bfac52fbef0a4b4b6b4505e697ed1f4149da

d01db83a9aa4c08e110b6fc854b505605052bff5

81be6513ef825db548dec130239338460291239b

9c05337ca9c213077b687b6c28eb89cea7817176

b65fd35dece94dc7f0efcb95120cf5f2bde21aad

fe8248cbc083fd77c292d8e0390772c2f71005bc

02d2f5c98ffda10d8d3a29fab87d520ff5eec5dc

ec0d8a2c34e76330dfa8f71b827ad5fbe0d5a134

940097ea92a2aa2995e8ca20b29a50e74f3f1d3a

91cf1b48fb13792c00217feadf7f6361805fc593

1fc76881f1e83d3015fc81a2601f8f624fd24b14

e6832f13d0e7ceda8b3cd2882941a8f5a646fff6

0ab81695c2b43fa6ff71d9e9b1515808235b8b3f

025a1092f8613499108e3ab563ce24f07256482b

6115e217c08bdf6dfd14c522f928a952cdc4b3ae

49508b6e6f75e6d7ea7677614532161d732a1ce1

72e5700ca0695e2be873ac5b9ccc1a849c35616d

efd7aa63786d322def6982f389e3b4b5031ac4ce

93847a2f8e0c56b12c2784df8c190f03941b9c08

eefc93121c7c8b8be5a7de439f6dcf9aca520216

4265a3c3693bda718ad7b3b774d3870c677afb42

3c96529691cfb8dbba0685d6147e3cd7997f393f

c14d05c6a5b8efdbca19bef70c195058681ab95b

0166990c11272ef55d0bf493c1a04c9713eb1930

37c8166b45c9901454db208efeb4ed8fa6801bc5

bceb678199d3b6a4a9139b37bc2ffaa52a23c730

文章标签：

分布式计算

存储

Spark

关键词：

apache spark检查

apache spark summit

apache spark summit eu

apache spark检查点

小猫吃鱼569

赵渝强老师

分布式计算 Spark

【赵渝强老师】Spark的容错机制：检查点

Spark通过Checkpoint机制将RDD状态持久化到磁盘，以支持容错。当任务执行出错时，可以从检查点位置重新计算，减少开销。Checkpoint目录可设置为本地文件夹或HDFS。建议生产系统使用高可靠的文件系统保存检查点。文中详细介绍了在本地和HDFS上设置检查点目录的步骤，并附有代码示例和视频讲解。

赵渝强老师

505 7 7

筝樾

存储缓存分布式计算

Spark 缓存和检查点机制

筝樾

423 0 0

开源大数据EMR

人工智能分布式计算大数据

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

开源大数据EMR

1395 0 1

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

23210 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

1119 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1992 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2732 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

3007 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

阿里云E-MapReduce团队

1423 0 0

寒凝雪

机器学习/深度学习分布式计算大数据

Spark Summit EU重头戏：TensorFlow、结构化的流和GPU硬件加速

寒凝雪

1721 0 0

【Spark Summit EU 2016】Spark中的自动检查点

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit EU 2016】Spark中的自动检查点

热门文章

最新文章

相关课程

相关电子书