实时计算 Flink 训练营场景与应用|学习笔记(二)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 快速学习实时计算 Flink 训练营场景与应用

开发者学堂课程【实时计算 Flink 实战课程实时计算 Flink 训练营场景与应用】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/762/detail/13352


实时计算 Flink 训练营场景与应用

2、Stream Analytics

实时计算Flink训练营场景与应用-7623776.png

// 三大场景的第一个同时也是Flink 在目前在中国来说包括在阿里看到最多的一个使用产品为Stream Analytics ,对于来说,对应的就是批处理流处理。这里与之对应就是左边的Batch analytics 以及右边的Streaming analytics

// 对于左边的Batch analytics 来说,大部分人比较熟悉,因为举了Flink 的例子,但是实际上之前用的好多其实都是一个典型的Batch analytics 场景,有时有传统的一个交互式分析,其实就是一个处理或者批查询,把基于有限的一个数据集进行加工计算此时用户先将数据装载到存储系统,包括演算存储系统或者数据活动程序系统进行批处理引擎计算,过程就是如此刚才描述批处理的三步应该是完全一致

// 对于右边的Streaming analytics 来说它与左边的Batch analytics 正好相反,但是在之前的技术原理图里面已经讲解了这一部分内容,对于Streaming analytics 来说,数据流是持续不断的进入计算系统。再看到图中右边中间小松鼠那块Continuous Ouery / Application ,数据持续的进入我们的application或者是Ouery所代表的进程或者程序里面会持续的消费和计算结果,同时结果会写入外部的存储,例如Database或者 K-V Store,可以数据通过我们的lashbored 或者livereport对终端的用户数据进行保存。其实对于Batch analytics 以及Streaming analytics 来说,是批处理和流处理在analytics 场景下延伸,原理是完全一致的,之前讲解内容是完全一致的。如果前面那些图批处理与流处理对比)比较熟悉的话,对也应该不会感到陌生。

实时计算Flink训练营场景与应用-7624570.png

对于Streaming analytics 进行展开讲解Streaming analytics 主要讲解的知识产品为流计算。用实时的流计算分析,Streaming analytics 应用优势规避了批处理部分的周期性数据的导入以及计算整个高延迟的过程,把它完全替换成数据产生传输进入到流式处理系统进行加工处理。整个的链条十分短,时效性。这是对于流式分析应用的一个优势。实时计算产品Flink 支持数据分析的应用,其实最大的一个特点就是Flink 相比于之前的 stop 或者 stap来说非常大的一个优点在于内置的一套 ANSI 的系统,其实是阿里巴巴阿里云贡献给整个 Flink 社区的,ANSI标准的 SQL 接口 是在集团内部2015年开始承接天猫双十一。一套SQL的视线十分成熟稳定,因为其实对于大量数据的工程师或者数据开发工程之后的 BI 分析是擅长二维的关系代数模型或者用程序员表达就是 SQL 接口,这套接口其实是完全几乎整个工业界的一种规范,而对于处理来说其实都没有一个符合或者近似符合标准的一个接口而Flink 在部分有重大的突破,同时得到了许多人的认可Flink  提供了一个 NOSI标准的 SQL 接口,将流式处理技术民主化这套技术赋能给了大量的 BI 的工程师或者储藏开发人员等,他们只要会一些 SICO 稍微或者通晓些 Flink 流式处理的原理。就能够做相应的优势开发这比之前的有更大优势。Streaming analytics 应用场景目前能看到的是不全都是用点状举例。实时数仓在空间比较广阔,包括实时数据中台概念之前是阿里的数据中台的部门提供,但实际上对于整个数据中台来说,其实以下还会细分,包括离线数据中台实时数据中台。整个实时数据中台在集团内部也是通过 Flink 构建的一个实时的数据中台。第三点是实时 BI ,其实与之 analytics 相呼应匹配,做完 analytics 之后一般是BI

3、Stream Pipelines

实时计算Flink训练营场景与应用-7625442.png

// Stream Pipelines可能受到文化差异的影响如图所示,左边批处理periodic ETL ,右边为实时处理Data Pipelines ,其实中国人一般会数据的处理,比如周边有时也会叫作 Pipelines ,当然有时也会叫作 ETL 。

// 对于右边来说有时叫作 Pipelines 有时也会叫作 Stream Pipelines 。文化的一个差异,国外特别是欧美,会强调实时化,所以字面意思上理解,其实没有看到实时这个点,但其实好像对于欧美这边这个单词隐藏的含义就是数据实时化,然后对于离线来说会叫作 ETL 。实际上本质上说右边的批处理是偏实时 ETL 这是按照中国人自己的一个叫法,整个的数据管的可以看到 ETL ,在整个过程 Flink 来说或者处理来说,是一个有持续流模型来运行的,不像批处理是触发一下运行一下数据导入一下然后结束处理是持续的导入相应问题。如此能将数据的利用变得实时化

1) Data Pipeline

实时计算Flink训练营场景与应用-7625896.png

// Data Pipeline 直译数据管道,实际上更要强调实时或者Streamming 的ETL,对于Streamming ETL 来说最大的点在于有效的降低了数据从源端移动目的端中间的延迟,将时效性有效的提升,将延迟有效的降低,能够持续消费及发送数据,相对于离线处理来说就是不一样的特点。而对于 Flink 来说除去刚才讲解 SQL 接口 ,其实 Table API 能进行表达同时提供了一个字典函数,扩展一系列相关的裁剪或者做一些变化,可以提供一些资源。但是对于有非常低底层硬创的一些需求,Flink 还提供了Table API 作特殊化的响应处理,其中有Kafka 、Kinesis、 Elasticsearch等,越往底层越灵活,但是用户需操心的事务越来越多。对于 Stream Pipelines来说,能看到其他场景实时的数据信息,往往是构建实时数据市场或者实时数据中台非常重要的一个前置步骤。实时索引构建其实对于 Stream Pipelines 及Flink 在阿里巴巴落地来说,第个是实时搜索,搜索部门做实时的索引的构建。第三个是实时的告警,当Flink 计算完成后的结果,需要实时的写系统,这就是实时告警的一个点。

(2)Event-Driven Application

实时计算Flink训练营场景与应用-7626466.png

// 最后一点是Event-Driven Application,其实对于Flink 来说,希望定义为流式处理的一个翘楚指示技术在实时计算一个实时化的分析处理,想做到更加极致实时化。就是当进入一条数据的时,会更自定化或者个性化的处理,处理完成的结果同时提供支持,此时围绕application,读取写入等能够做到快速的状态。是一个坐标轴的话,希望 Flink 能够也能涉足到近实时处理,甚至完全实时化处理,同时将Flink 推想做更加极致化的一个流。极致化的Event-Driven Application的架构,其实满足的是一部分的需求,希望能够处理的更极致的流式分析的一个场景

实时计算Flink训练营场景与应用-7626773.png

// 对于这种场景来说,Flink 核心的优势点就是状态,因为相比普通的一些事件触发的引擎或者框架来说,其实在里面最大的一个特点是会在意stage。可以保证运行即使出现问题时,也能够做到快速运行,同时这份检查还是存在本地的,所谓存在本地就在于流式处理或者Event-Driven Application进程,可以直接访问本地的存储,而不需要访问远端的数据库,能够极大的减少时间。实际上目前在中国这边用的不算多,下面举一些案例进行分析有感兴趣,欢迎之后再进行探讨。Event-Driven Application暴露了非常底层的API Profunction,非常灵活,非常灵活,能够做一些比较复杂的非二维的关系代数模型的分析类的问题。比如异常检测复杂的规则引擎的告警等,都是比较复杂的二维的关系代数模型描述的应用。

// 第二章总结:技术场景是一个高度通用的抽象化的产品。这些场景是线下的一些场景,可以理解为一个基石,希望通过这些场景未来在遇到其他场景的时候都能够收敛归纳,能够运用到这些场景里面的技术场景来帮助识别。

 

三、应用场景

// 接下来内容为几个应用场景,就是在之前场景上做叠加组合,最后形成的新的与行业无关的应用场景。最后一章举行业相关的一些案例,就会更加的具体,所以是从技术到抽象的场景,到案例,到应用场景,最后的行业案例过程。

1、实时数仓

实时计算Flink训练营场景与应用-7627373.png

// 实时数仓目前来说,实际上他综合了Pipelines 及Event-Driven Application两个接触器,最后形成的实时数仓传统的实时数仓最大不同的点就在于能够业务的数据进行识别、汇聚加工,最后写实时的服务层,交互式分析作为一个查询层对外提供服务,但其实满足同样的结果。最核心就在于业务的整个需求及整个链路实时化。其实是能够极大的去满足一些需实时探索实时聚合数与实时业务价值的场景例如客户需要实时巡查。

2、实时风控

实时计算Flink训练营场景与应用-7627602.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
303 1
|
3月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
1月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1237 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
1天前
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
128 2
探索Flink动态CEP:杭州银行的实战案例
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
157 56
|
1月前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。
|
2月前
|
运维 搜索推荐 数据安全/隐私保护
阿里云实时计算Flink版测评报告
阿里云实时计算Flink版在用户行为分析与标签画像场景中表现出色,通过实时处理电商平台用户行为数据,生成用户兴趣偏好和标签,提升推荐系统效率。该服务具备高稳定性、低延迟、高吞吐量,支持按需计费,显著降低运维成本,提高开发效率。
83 1
|
2月前
|
运维 数据处理 Apache
数据实时计算产品对比测评报告:阿里云实时计算Flink版
数据实时计算产品对比测评报告:阿里云实时计算Flink版
|
2月前
|
运维 监控 Serverless
阿里云实时计算Flink版评测报告
阿里云实时计算Flink版是一款全托管的Serverless实时流处理服务,基于Apache Flink构建,提供企业级增值功能。本文从稳定性、性能、开发运维、安全性和成本效益等方面全面评测该产品,展示其在实时数据处理中的卓越表现和高投资回报率。
|
2月前
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
52 0