文档备案控制台

开发者社区大数据文章正文

Spark 概念学习系列之DAG的生成（十一）

2017-11-14 1325

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

DAG的生成

原始的RDD(s)通过一系列转换就形成了DAG。RDD之间的依赖关系，包含了RDD由哪些Parent RDD(s)转换而来和它依赖parent RDD(s)的哪些Partitions，是DAG的重要属性。借助这些依赖关系，DAG可以认为这些RDD之间形成了Lineage（血统）。借助Lineage，能保证一个RDD被计算前，它所依赖的parent RDD都已经完成了计算；同时也实现了RDD的容错性，即如果一个RDD的部分或者全部的计算结果丢失了，那么就需要重新计算这部分丢失的数据。

那么Spark是如何根据DAG来生成计算任务呢？

　　首先，根据依赖关系的不同将DAG划分为不同的阶段（Stage）。对于窄依赖，由于Partition依赖关系的确定性，Partition的转换处理就可以在同一个线程里完成，窄依赖被Spark划分到同一个执行阶段；对于宽依赖，由于Shuffle的存在，只能在parent RDD(s) Shuffle处理完成后，才能开始接下来的计算，因此宽依赖就是Spark划分Stage的依据，即Spark根据宽依赖将DAG划分为不同的Stage。

　　在一个Stage内部，每个Partition都会被分配一个计算任务（Task），这些Task是可以并行执行的。

　　　Stage之间根据依赖关系变成了一个大粒度的DAG，这个DAG的执行顺序也是从前向后的。也就是说，Stage只有在它没有parent Stage或者parent Stage都已经执行完成后，才可以执行。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5723768.html，如需转载请自行联系原作者

文章标签：

分布式计算

Spark

关键词：

apache spark学习

apache spark概念

apache spark DAG

apache spark概念学习

技术小哥哥

目录

相关文章

孙玉洁-47170

|

分布式计算 API Spark

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

孙玉洁-47170

318 11 11

八进智

|

8月前

|

分布式计算 Kubernetes 调度

Kubeflow-Spark-Operator-架构学习指南

本指南系统解析 Spark Operator 架构，涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径，助你从部署到贡献，掌握 Kubernetes Operator 核心原理与实战技能。

八进智

490 0 0

武子康

|

分布式计算大数据 Java

大数据-87 Spark 集群案例学习 Spark Scala 案例手写计算圆周率、计算共同好友

大数据-87 Spark 集群案例学习 Spark Scala 案例手写计算圆周率、计算共同好友

武子康

295 5 5

武子康

|

分布式计算关系型数据库 MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

武子康

217 3 3

yukiji0701

|

机器学习/深度学习人工智能自然语言处理

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

本文深入解析了 Spark-TTS 模型的架构与原理，该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构，将语音信号分解为语义 Token 和全局 Token，实现内容与音色解耦。结合大型语言模型（如 Qwen 2.5），Spark-TTS 能直接生成语义 Token 并还原波形，简化推理流程。实验表明，它不仅能克隆音色、语速和语调，还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战，但其技术突破为定制化 AI 声音提供了全新可能。

yukiji0701

967 35 37

武子康

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

439 0 0

vohelon

|

分布式计算 Shell Scala

学习使用Spark

学习使用Spark

vohelon

425 3 3

vohelon

|

分布式计算 Shell Scala

如何开始学习使用Spark？

【8月更文挑战第31天】如何开始学习使用Spark？

vohelon

503 2 2

wljslmz

|

分布式计算资源调度监控

什么是 Spark DAG？

【8月更文挑战第14天】

wljslmz

1673 5 5

LKIDTI数据

|

分布式计算算法 Spark

spark学习之 GraphX—预测社交圈子

spark学习之 GraphX—预测社交圈子

LKIDTI数据

489 0 0

热门文章

最新文章

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

钉钉群直播【Spark Relational Cache 原理和实践】

【Spark Summit East 2017】使用Spark进行时间序列分析

【Spark】（七）Spark partition 理解 / coalesce 与 repartition的区别

Spark Mllib里数据集如何取前M行（图文详解）

大数据Spark框架概述

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

分布式计算框架比较：Hadoop、Spark 与 Flink

Spark3.3.0源码编译补充篇-抓狂的证书问题

Spark性能优化之SparkUI

利用SparkLauncher实现Spark Cluster模式下的远端交互

Spark3.x的Cache能不能让我在2022好好睡觉

Spark 3.0 中的屏障执行模式_Spark的MPI时代来了

Spark性能优化指南—思路梳理

肝Spark源码的若干骚操作

Spark的几种去重的原理分析

Spark开发实用技巧-从入门到爱不释手

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

阿里云数据库产品支持免费试用吗？最新可试用数据库规格信息、配置及可试用人群参考