实时计算与SparkSteaming的对比-阿里云开发者社区

开发者社区> 阿里巴巴大数据计算> 正文

实时计算与SparkSteaming的对比

简介: 本文由阿里巴巴龙青云带来以“实时计算与SparkSteaming的对比”为题的演讲。首先对实时计算和产品模式进行概述。然后介绍了什么是Flink以及它的架构图、编程模型、计算模型和容错机制。接着阐述了Spark Streaming与实时计算的对比涉及生态集成对比、API对比、数据处理模式对比、时间机制对比以及容错机制对比五个方面。最后讲解了如何使用阿里云实时计算以及实时计算的使用限制。

以下为精彩视频内容整理:

实时计算概述

实时计算

阿里云实时计算(Alibaba Cloud Realtime Compute)是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适应于流式数据处理、离线数据处理等场景,最重要的一点是免运维,可以为企业节省了大量的成本。

产品模式

阿里云的实时计算产品模式有Flink云原生版和独享模式。目前Flink云原生版支持部署于容器服务ACK提供的Kubernetes。独享模式是指在阿里云ECS上单独为用户创建的独立计算集群。单个用户独享计算集群的物理资源(网络、磁盘、CPU或内存等),与其它用户的资源完全独立。独享模式分为包年包月和按量付费两种方式。

Flink简介

Flink是开源的流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。它的特点是支持高吞吐、低延迟、高性能的流处理,支持带有事件时间的窗口(Window)操作,支持有状态计算的Exactly-once语义,支持基于轻量级分布式快照(Snapshot)实现的容错,同时支持Batch on Streaming处理和Streaming处理,Flink在JVM内部实现了自己的内存管理,支持迭代计算,支持程序自动优化,避免特定情况下Shuffle、排序等昂贵操作,中间结果有必要进行缓存。

Flink架构图

image

阿里云的程序提交主要从客户端进行提交。其中,JobClient负责接收程序、解析程序的执行计划、优化程序的执行计划,然后提交执行计划到JobManager。JobManager主要负责申请资源,协调以及控制整个job的执行过程。TaskManager的主要作用是接收并执行JobManager发送的task,并且与JobManager通信,反馈任务状态信息。Slot是TaskManager资源粒度的划分,每个Slot都有自己独立的内存。所有Slot平均分配TaskManger的内存,比如TaskManager分配给Solt的内存为8G,两个Slot,每个Slot的内存为4G,并且Slot仅划分内存,不涉及cpu的划分。

Flink编程模型

image

在Flink编程模型中最低级的抽象仅提供状态流(stateful streaming),向上一层为DataStream API(数据流接口,有界/无界流)和DataSet API(数据集接口,有界数据集)。再向上为表接口(Table API),是以表为中心的声明性DSL,可以动态地改变表(当展示流的时候)。Flink提供的最高级抽象是SQL。阿里云的实时计算暂时不提供批处理。

Flink计算模型

image

Flink计算模型主要分为三部分,第一部分为Source,第二部分为Transformation,第三部分为Sink。每一个数据流起始于一个或多个Source,经过Transformation操作,对一个或多个输入Stream进行计算处理并终止于一个或多个Sink。

Flink的容错机制

image

Flink容错的核心机制是checkpoint,可以定期地将各个Operator处理的数据进行快照存储(Snapshot)。如果Flink程序出现宕机,可以重新从这些快照中恢复数据。Flink的checkpoint原理是Flink定期的向流应用中发送barrier,当算子收到barrier会暂停处理会将state制成快照,然后向下游广播barrier,直到Sink算子收到barrier,快照制作完成。阿里云的barrier是不参与计算的,并且是非常轻量的。

Spark Streaming与实时计算的对比

生态集成对比

image

Spark Streaming数据源支持KafKa、Flume、HDFS/S3、Kinesis以及Twitter数据源,同样Flink也支持这些数据源。在数据计算中分为数据源表、数据结果表和数据维表。数据源表支持DataHub、消息队列MQ,KafKa、MaxCompute、表格存储TableStore。数据结果表支持分析型数据库MySQL版2.0、据总线DataHub、日志服务LOG结果表、消息队列MQ结果表、表格存储TableStore、云数据库RDS版、MaxCompute、云数据库HBase版、Elastic Search、Kafka、HybridDB for MySQL、自定义、云数据库MongoDB版、云数据库Redis版、云数据库RDS SQL Server版、分析型数据库MySQL版3.0结果表。数据维表支持表格存储TableStore、云数据库RDS版、云数据库HBase版、MaxCompute(ODPS)、ElasticSearch。

API对比

Spark Streaming支持底层的API是RDD,而Flink支持底层的API是Process Function。Spark Streaming核心API是DataFrame/DataSet/Structured Streaming,而Flink的核心API是DataStream/DataSet。Spark Streaming支持的SQL是Spark SQL,而Flink支持的SQL是Table API和 SQL。相同的是,Spark Streaming和Flink都支持机器学习,Spark Streaming支持MLlib,而Flink支持FlinkML。Spark Streaming支持的图计算是GraphX,而Flink支持Gelly。但阿里云的Flink在流计算方面更成熟一些。

数据处理模式对比

image

上图所示为Spark Streaming,是基于Spark高效的批处理能力,对流数据划分为多个小批数据,再分别对这些数据进行处理,即微批处理模式,运行的时候需要指定批处理的时间,每次运行作业时处理一个批次的数据。并不是真正的流计算,而是进行微批处理的。
image

上图所示为阿里云的Flink,是基于事件驱动的,事件可以理解为消息,即源源不断没有边界的数据,并且数据的状态可以改变,对于批处理则认为是有边界的流进行处理。

时间机制对比

image

Flink提供了3种时间模型:EventTime、ProcessingTime、IngestionTime,在实时计算中支持EventTime、ProcessingTime,而Spark Streaming仅支持ProcessingTime。其中,EventTime指事件生成时的时间,在进入Flink之前就已经存在,可以从event的字段中抽取。IngestionTime指事件进入Flink的时间,即在source里获取的当前系统的时间,后续操作统一使用该时间。ProcessingTime指执行操作的机器的当前系统时间(每个算子都不一样)。阿里云的Flink也提供了WaterMark用来处理时间乱序,Watermark是一个对Event Time的标识,这里的乱序是指有事件迟到了,对于迟到的元素,不可能无限期的等下去,必须要有一种机制来保证一个特定的时间后,必须触发window进行计算。比如计算一个10:00到10:10分的窗口,watermark设置延迟3s,当一条数据的watermark到达10:10:03,这个窗口才会触发,表示这个窗口的数据已经全部到了,然后进行计算并释放相关被占用的资源。

容错机制对比

Spark Streaming容错机制是利用Spark自身的容错设计、存储级别和RDD抽象设计,能够处理集群中任何worker节点的故障。Driver端利用checkpoint机制。对于接收的数据使用预写日志的形式。Flink的容错机制主要是基于checkpoint。定期地将各个Operator处理的数据进行快照存储(Snapshot)。

如何使用阿里云实时计算

image

上图所示为一个购买界面,分为master型号和slave型号。地域选择为当时所在的地方,master主要负责管理整个集群的资源和slave之间的交互,但不能用于计算。Slave主要负责计算。

创建项目

image
创建完集群之后,来到集群的控制台中,点击集群列表,找到对应的集群创建项目,填写项目名称和备注,其中CU指集群还剩余多少CU。1CU为1核4G,简单业务时,1CU每秒可以处理10000条数据。例如,单流过滤、字符串变换等操作。复杂业务时,1CU每秒可以处理1000到5000条数据。例如,JOIN、WINDOW、GROUP BY等操作。

作业开发

image

然后点击对应的项目,点击开发进入到开发界面,通过新建作业和文件夹的方式编写自己的DDL语句。对于资源引用,阿里云的Flink SQL支持UDF、DataStream。 再编写一个以DataHub为数据源,数据维表在RDS数据库中,结果表输出到RDS数据库中新建一个DatahubData文件夹,新建一个DatahubData作业。

数据存储

image

数据存储支持明文方式和存储注册方式。明文方式是通过在作业的DDL语句WITH参数中配置accessId和accessKey的方法。存储注册方式是将上下游存储资源预先注册至实时计算开发平台,然后通过实时计算控制台的数据存储管理功能,对上下游存储资源进行引用,可以对数据进行预览。阿里云采用存储注册的方式注册DataHub。填写对应的endpoint和项目的名称,单机作为输入表引用,就会在作业开发界面生成DDL语句。

注册数据结果表和维表

image

由于RDS数据库存在白名单限制,连接RDS需要添加白名单,独享模式的IP地址在集群列表页面,单击名称字段下目标集群名称,在集群信息窗口,查看集群的ENI信息。

编写自己SQL

image

从数据源表中过滤出place是北京的数据。Sql中使用了计算列,计算列的语法为column_name AS computed_column_expression,计算列可以使用其它列的数据,计算出其所属列的数值。如果您的数据源表中没有TIMESTAMP类型的列,可以使用计算列方法从其它类型的字段进行转换。

查看运维界面

image

Failover曲线显示当前作业出现Failover(错误或者异常)的频率。计算方法为当前Failover时间点的前1分钟内出现Failover的累计次数除以60(例如,最近1分钟Failover了一次,Failover的值为1/60=0.01667)。延迟分为业务延时、数据滞留时间及数据间隔时间。其中业务延迟指当前数据时间减去最后一条数据的时间,数据滞留时间指数据实时计算的时间减去eventime,数据间隔时间指业务延时减去数据滞留时间。Source的TPS数据是指直接读取数据源的数据,Source的RPS是指读取TPS解析后的数据。

本地调试

image

需要从本地上传对应的数据。

实时计算的使用限制

针对区域的限制,独享模式仅支持华东1(杭州)、华东2(上海)、华南1(深圳)、华北2(北京)地区。针对CU的处理能力,实时计算当前在内部压测场景下,一个CU的处理能力大约为:简单业务时,例如,单流过滤、字符串变换等操作,1CU每秒可以处理10000条数据。复杂业务时,例如,JOIN、WINDOW、GROUP BY等操作,1CU每秒可以处理1000到5000条数据。针对作业、任务数量限制,单个项目下允许最多创建业务的个数为100。单个项目下允许最多的文件夹的个数为50,层数最大不超过5层,单个项目下允许最多的UDX或JAR的个数为50,单个项目下允许最多注册数据存储的个数为50,单个作业允许最多的历史保存版本数为20。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
阿里巴巴大数据计算
使用钉钉扫一扫加入圈子
+ 订阅

阿里大数据官方技术圈

官方博客
链接