开发者学堂课程【阿里云流计算使用教程:流计算概念】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/432/detail/5385
流计算概念
内容介绍
一、大数据处理流程
二、流式计算与批量计算区别
三、流计算定义
四、流计算业务架构
一、大数据处理流程
大数据处理共有四个流程:
数据发生、数据采集、数据加工、数据消费。
1. 传统处理模型:
存在问题:
(1)时延较高:整个装载数据、数据处理以及数据输出可能是数小时或数天级别,不能满足时效性很高的场景。
(2)处理单一:不支持图像、流式数据等
(3)迁移高昂:数据迁移时会产生高昂费用。
2. 下一代数据模型:
完全解决上一代存在的问题:采集实时化、计算多样化、存储共享化
二、流式计算与批量计算区别
1. 流式处理的出现有效的缩短了整体链路的延迟,提供另一套基于流的计算模型。
作为现有的离线批量大数据有效计算补充。
2. 从图中可以看出离线(批量)计算和流计算的区别,离线计算时批量、高时延、主动发起,流计算时持续、低时延、事件触发。
3. 从下表可以看出计算模型的区别:
|
批量计算 |
流式计算 |
数据范围 |
对数据集中的所有或大部分数据进行查询或处理 |
对时间窗口内的数据或仅对最近的数据记录进行查询或处理 |
数据大小 |
大批量数据 |
单条记录或包含几条记录的小批量数据。 |
性能 |
几分钟至几小时的延迟 |
只需大约几秒或几毫秒的延迟 |
分析 |
复杂分析 |
简单的聚合、统计型分析函数 |
三、流计算定义
1.流计算作为一类针对流数据的实时计算模型、流计算可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。
2.流数据
不同于传统的离线数据,流数据产生源头来自于源源不断的事件流,由数千个数据源持续生成的数据,流数据
通常也数据记录的形式发送,但相较干坚线数据,流数据对干平售,计管售成的时让要求较高。归结下来流数据有以下三大特点:
3. 流计算时批量计算的有效增强,特别在于对于流数据分析方面,是大数据计算是一个不可或缺的增值服务。
四、流计算业务架构:
第三方数据产生,到达数据计算、数据存储、最后到达业务服务。
流计算业务架构主要包括流数据采集、流数据处理、流数据集成以及流数据消费。