流式计算

简介: 从spark 说起,谈谈“流式”计算的理解spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:并行计算Map Reduce 算子RDD数据结构并行计算spark的任务分为1个driver、多个executor。

从spark 说起,谈谈“流式”计算的理解

spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:

  1. 并行计算
  2. Map Reduce 算子
  3. RDD数据结构
  • 并行计算

spark的任务分为1个driver、多个executor。程序启动driver,driver发送执行的程序(jar)到executor,executor在多台机器并行执行。driver和executor可以理解为进程,像httpd一样,完成某些任务,接受并发送数据的进程。

不同的spark任务都需要分配driver、executor。此时,还需要提供资源管理的应用,包括计算资源内存资源的。

我们采用YARN作为spark资源管理系统,Mesos是另一个资源管理框架。


YARN
  • Map Reduce 算子

大数据与并行计算的最大区别,我认为就在map reduce算子上。

并行计算更喜欢做“关门打狗”的应用,高度并行,线程之间不做交互,例如口令破译,造表等。

spark中,用transform 和 action代替map Reduce操作。transform中的reduceByKey等操作对整体数据处理。例如,下面的代码是一个transform操作,rdd是(word,1)对象,reducebykey统计相同word出现的次数,这个操作是全局完成的。

rdd.reduceByKey((v1,v2)->v1+v2)
AI 代码解读
  • RDD数据结构

在并行计算中,需要维护一个全局数据结构,类似任务种子,每个节点维护与自己种子对应的数据片。

RDD(Resilient Distributed Datasets),弹性分布式数据集。在spark中,RDD维护一个全局的数据对象。每个任务executor自动对应自己的数据集分片。在编写程序的时候,对executor上到底有哪些数据不用关心,数据集的分片、合并等操作都是透明的,仅需要定义整个数据集的操作。

RDD

spark 大数据应用,挑战

spark用于实现大数据分析功能。如果数据源比较大,有几十亿条,用MySQL做数据分析,可能要一天的时间,spark可能几十分钟就能给出结果(因为采用分布式计算,分布式数据集)。

传统的web服务,属于online业务。online业务要求毫秒级的响应速度,这样的业务产生额外的要求,例如对用户的阅读记录对用户的画像的影响、一个订单对全城车辆调度的影响、一个用户的动态对推荐feed流的影响。

虽然,这些操作实时性不像online业务要求毫秒,但是也是秒级的。对spark批处理提出更多要求。

Spark streaming 解决秒级响应,即流式计算

spark streaming 将spark 批处理应用,缩小为一个微批micro batch,把microbatch作为一个计算单元。


Stream

典型应用如图。大量实时业务产生的实时数据,首先放在一个队列中,例如kafka,Spark streaming 从kafka中取出micorbatch进行处理。

JavaStreamingContext ssc = 
new JavaStreamingContext(sparkConf, Durations.seconds(5));
JavaReceiverInputDStream inputDStream =     
                ssc.socketTextStream("localhost",9999,
                    StorageLevel.MEMORY_AND_DISK());
JavaDStream<String> words =  inputDStream
            .flatMap(s->Arrays.asList(String.valueOf(s)
                          .split(" ")).iterator());
AI 代码解读

上面的代码案例,定义一个socket输入流,任务每5秒钟执行一次(微批),统计单词个数。

总结

本文是关于spark streaming流式计算理解的介绍文章。

希望读者能通过10分钟的阅读,理解spark streaming 及流式计算的原理。

文中对spark、yarn的原理没有深入讲解,有机会在后面的文章介绍。

下一篇我会根据spark streaming 官网中案例讲解JavaDStream mapWithState的练习。

目录
打赏
0
0
0
0
1
分享
相关文章
魔搭开源版GPTS来啦!轻松搭建个人超级智能体!
Openai DEV day上推出了GPT Stores, 允许用户通过聊天、直接配置的方式进行GPT的定制
Hologres OLAP场景核心能力介绍-2024实时数仓Hologres线上公开课02
本次分享由Hologres产品经理赵红梅(梅酱)介绍Hologres在OLAP场景中的核心能力。内容涵盖OLAP场景的痛点、Hologres的核心优势及其解决方法,包括实时数仓分析、湖仓一体加速、丰富的索引和查询性能优化等。此外,还介绍了Hologres在兼容PG生态、支持多种BI工具以及高级企业级功能如计算组隔离和serverless computing等方面的优势。最后通过小红书和乐元素两个典型客户案例,展示了Hologres在实际应用中的显著效益,如运维成本降低、查询性能提升及成本节省等。
192 7
Koordinator v1.6: 支持AI/ML场景的异构资源调度能力
如何高效管理和调度这些资源成为了行业关注的核心问题。在这一背景下,Koordinator积极响应社区诉求,持续深耕异构设备调度能力,并在最新的v1.6版本中推出了一系列创新功能,帮助客户解决异构资源调度难题。
"揭秘实时流式计算:低延迟、高吞吐量的数据处理新纪元,Apache Flink示例带你领略实时数据处理的魅力"
【8月更文挑战第10天】实时流式计算即时处理数据流,低延迟捕获、处理并输出数据,适用于金融分析等需即时响应场景。其框架(如Apache Flink)含数据源、处理逻辑及输出目标三部分。例如,Flink可从数据流读取信息,转换后输出。此技术优势包括低延迟、高吞吐量、强容错性及处理逻辑的灵活性。
258 4
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
实时计算 Flink版产品使用问题之Flink+DataHub+Hologres相比于Flink+Hologres加入了DataHub组件,有什么优势
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
DataWorks操作报错合集之执行Hologres任务时,连接被拒绝,一般是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
DataWorks操作报错合集之执行Hologres任务时,连接被拒绝,一般是什么导致的
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问