流计算概念|学习笔记

简介: 快速学习流计算概念

开发者学堂课程【阿里云流计算使用教程流计算概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/432/detail/5385


流计算概念


 内容介绍

一、大数据处理流程

二、流式计算与批量计算区别

三、流计算定义

四、流计算业务架构


一、大数据处理流程

大数据处理共有四个流程:

数据发生、数据采集、数据加工、数据消费。

1. 传统处理模型:

存在问题:

(1)时延较高:整个装载数据、数据处理以及数据输出可能是数小时或数天级别,不能满足时效性很高的场景。

(2)处理单一:不支持图像、流式数据等

(3)迁移高昂:数据迁移时会产生高昂费用。

2. 下一代数据模型:

完全解决上一代存在的问题:采集实时化、计算多样化、存储共享化

 

二、流式计算与批量计算区别

1. 流式处理的出现有效的缩短了整体链路的延迟,提供另一套基于流的计算模型。

作为现有的离线批量大数据有效计算补充。

image.png

2. 从图中可以看出离线(批量)计算和流计算的区别,离线计算时批量、高时延、主动发起,流计算时持续、低时延、事件触发。

3. 从下表可以看出计算模型的区别:

 

 

批量计算

流式计算

数据范围

对数据集中的所有或大部分数据进行查询或处理

对时间窗口内的数据或仅对最近的数据记录进行查询或处理

数据大小

大批量数据

单条记录或包含几条记录的小批量数据。

性能

几分钟至几小时的延迟

只需大约几秒或几毫秒的延迟

分析

复杂分析

简单的聚合、统计型分析函数


三、流计算定义

1.流计算作为一类针对流数据的实时计算模型、流计算可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2.流数据

不同于传统的离线数据,流数据产生源头来自于源源不断的事件流,由数千个数据源持续生成的数据,流数据

通常也数据记录的形式发送,但相较干坚线数据,流数据对干平售,计管售成的时让要求较高。归结下来流数据有以下三大特点:

image.png

3. 流计算时批量计算的有效增强,特别在于对于流数据分析方面,是大数据计算是一个不可或缺的增值服务。

 

四、流计算业务架构:

第三方数据产生,到达数据计算、数据存储、最后到达业务服务。

流计算业务架构主要包括流数据采集、流数据处理、流数据集成以及流数据消费。

相关文章
|
21天前
|
人工智能 监控 安全
OpenClaw多Agent团队搭建实战手册:(阿里云/本地保姆级部署+免费大模型API配置+避坑指南)
2026年,AI工具的竞争已从“对话能力”升级为“执行效率”。大多数人用AI仍停留在“你问我答”的高级搜索阶段,而真正的生产力飞跃,来自能“自主闭环”的AI执行系统——OpenClaw作为首个开源本地部署的AI Agent平台,彻底打破这一局限。
1056 170
|
6月前
|
人工智能 开发框架 安全
浅谈 Agent 开发工具链演进历程
模型带来了意识和自主性,但在输出结果的确定性和一致性上降低了。无论是基础大模型厂商,还是提供开发工具链和运行保障的厂家,本质都是希望提升输出的可靠性,只是不同的团队基因和行业判断,提供了不同的实现路径。本文按四个阶段,通过串联一些知名的开发工具,来回顾 Agent 开发工具链的演进历程。
1102 87
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
870 0
|
10月前
|
存储 传感器 安全
数据不是“铁打的”,从出生到销毁它也有生命周期
数据不是“铁打的”,从出生到销毁它也有生命周期
640 1
|
6月前
|
人工智能 算法 大数据
别让“热搜”骗了你:大数据如何让新闻更真实?
别让“热搜”骗了你:大数据如何让新闻更真实?
364 17
|
6月前
|
数据采集 关系型数据库 MySQL
如何从零开发一款 OneAgent
Databuff自研轻量级OneAgent,专为智能可观测时代打造。具备低资源占用、自动服务发现、SQL查询支持与采集即治理等特性,兼容多语言插件扩展,助力AI-Agent集成与全栈监控统一管理。
|
6月前
|
JSON 监控 API
从0到1掌握京东API:商品详情获取技巧与避坑指南
京东商品详情API提供商品基础信息、实时价格、SKU规格等120+字段,支持价格监控与竞品分析。采用HTTPS协议,响应延迟≤30秒,具备高并发能力,适用于电商数据应用。
|
消息中间件 分布式计算 搜索推荐
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
992 0
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
|
9月前
|
存储 人工智能 自然语言处理
AI大模型潜力无限,构建高效架构为何却困难重重?
本文三桥君系统介绍了AI大模型应用架构的完整体系,从多模态数据接入、预处理与特征提取,到知识与模型中台建设,再到业务应用落地和持续优化。产品专家三桥君通过架构图和工作流程说明,为AI大模型的实际应用提供了系统化的解决方案和技术选型参考。
570 0
|
消息中间件 监控 Kafka
Apache Kafka 成为处理实时数据流的关键组件。Kafka Manager 提供了一个简洁的 Web 界面
随着大数据技术的发展,Apache Kafka 成为处理实时数据流的关键组件。Kafka Manager 提供了一个简洁的 Web 界面,方便管理和监控 Kafka 集群。本文详细介绍了 Kafka Manager 的部署步骤和基本使用方法,包括配置文件的修改、启动命令、API 示例代码等,帮助你快速上手并有效管理 Kafka 集群。
288 0

热门文章

最新文章