备案控制台

开发者社区大数据文章正文

Spark Streaming概念学习系列之Spark Streaming 架构（二）

2017-11-03 1119

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　图 1 Spark Streaming 架构图

Spark Streaming 组件介绍：
　　 Network Input Tracker ：通过接收器接收流数据，并 将流数据映射为输入DStream。
　　Job Scheduler ：周期性地查询 DStream 图，通过输入的流数据生成 Spark Job，将 Spark Job 提交给 Job Manager 进行执行。
　　JobManager：维护一个 Job 队列，将队列中的 Job 提交到 Spark 进行执行。

通过图 1 可以看到 D-Stream Lineage Graph 进行整体的流数据的 DAG 图调度， Taskscheduler 负责具体的任务分发， Block tracker 进行块管理。在从节点，如果是通过网络输入的流数据会将数据存储两份进行容错。 Input receiver 源源不断地接收输入流， Task execution 负责执行主节点分发的任务， Block manager 负责块管理。 SparkStreaming 整体架构和 Spark 很相近，很多思想是可以迁移理解的。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725358.html，如需转载请自行联系原作者

文章标签：

分布式计算

Spark

流计算

调度

存储

关键词：

apache spark streaming

apache spark架构

spark架构

apache spark学习

apache spark概念

技术小哥哥

目录

相关文章

武子康

|

5月前

|

存储分布式计算大数据

大数据-169 Elasticsearch 索引使用与架构概念增删改查

大数据-169 Elasticsearch 索引使用与架构概念增删改查

武子康

97 3 3

蓝易云

|

2月前

|

XML Java 开发者

Spring底层架构核心概念解析

理解 Spring 框架的核心概念对于开发和维护 Spring 应用程序至关重要。IOC 和 AOP 是其两个关键特性，通过依赖注入和面向切面编程实现了高效的模块化和松耦合设计。Spring 容器管理着 Beans 的生命周期和配置，而核心模块为各种应用场景提供了丰富的功能支持。通过全面掌握这些核心概念，开发者可以更加高效地利用 Spring 框架开发企业级应用。

蓝易云

89 18 18

武子康

|

5月前

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

108 0 0

IT行业工程师

|

4月前

|

供应链监控安全

网络安全中的零信任架构：从概念到部署

网络安全中的零信任架构：从概念到部署

IT行业工程师

247 0 1

扬流

|

4月前

|

分布式计算大数据 Apache

Apache Spark & Paimon Meetup · 北京站，助力 LakeHouse 架构生产落地

2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F，阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup，助力企业 LakeHouse 架构生产落地”线下 meetup，欢迎报名参加！

扬流

150 3 3

程序员彭于晏

|

4月前

|

测试技术持续交付微服务

深入理解微服务架构：从概念到实践

深入理解微服务架构：从概念到实践

程序员彭于晏

75 0 0

赵渝强老师

|

4月前

|

分布式计算流计算 Spark

【赵渝强老师】Spark Streaming中的DStream

本文介绍了Spark Streaming的核心概念DStream，即离散流。DStream通过时间间隔将连续的数据流转换为一系列不连续的RDD，再通过Transformation进行转换，实现流式数据的处理。文中以MyNetworkWordCount程序为例，展示了DStream生成RDD的过程，并附有视频讲解。

赵渝强老师

79 0 0

LKIDTI数据

|

5月前

|

分布式计算算法 Spark

spark学习之 GraphX—预测社交圈子

spark学习之 GraphX—预测社交圈子

LKIDTI数据

140 0 0

LKIDTI数据

|

5月前

|

分布式计算 Scala Spark

educoder的spark算子学习

educoder的spark算子学习

LKIDTI数据

40 0 0

武子康

|

5月前

|

存储分布式计算算法

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

武子康

98 0 0

热门文章

最新文章

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

基于云服务器的数仓搭建-hive/spark安装

如何在IDE中通过Spark操作Hive

【赵渝强老师】Spark的容错机制：检查点

【赵渝强老师】Spark RDD的缓存机制

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

【上云基础系列-01】如何把控公网带宽费，实现低成本用云（基于单体架构）

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

【上云基础系列 02-01】通过SLB+1台ECS+ESS弹性伸缩，搭建一个精简版的上云标准弹性架构（含方案及教程）

阿里二面：10亿级分库分表，如何丝滑扩容、如何双写灰度？阿里P8方案+ 架构图，看完直接上offer！

JavaWeb CRUD 与分页系统架构学习教程

云原生时代的架构革新，Apache Doris 存算分离如何实现弹性与性能双重提升

Python 高级编程与实战：构建微服务架构

Python 高级编程与实战：深入理解设计模式与软件架构

企业网络架构安全持续增强框架

深入解析Tiktokenizer：大语言模型中核心分词技术的原理与架构

框架源码私享笔记(01)Tomcat核心架构功能 | 配置详解

小红书湖仓架构的跃迁之路

类似ComfyUI和Midjourney这样的文生图图生图应用的API与服务架构该怎么设计

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

相关电子书

更多

云HBaseSQL及分析 ——Phoenix&Spark

R AND SPARK

Spark Autotuning

相关实验场景

更多

基于Serverless架构的盲盒抽奖系统

零基础部署一个Django Blog到Serverless架构

使用EDA架构部署在线外卖订单系统

部署高可用架构

搭建PostgreSQL主从架构

使用SLB+2ECS+NAS，部署电商web网站的高可用架构

下一篇

阿里云负载均衡SLB版本CLB、ALB和NLB有什么区别如何选择？