《应用场景与实时计算 Flink 版产品介绍》|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习 《应用场景与实时计算 Flink 版产品介绍》

开发者学堂课程【《实时计算Flink 版产品入门与实操》《应用场景与实时计算 Flink 版产品介绍》】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/334/detail/3736


《应用场景与实时计算 Flink 版产品介绍》


目录:

一、技术原理,技术应用

二、数据处理时效性的四大概念

三、Stream Analytics

四、实时风控

 

 

技术原理

通晓原理→举一反三

容易混淆的四大概念

批处理 VS 流处理

流处理:事件触发的处理

 

通晓原理举一反三图片17.png

通晓产品背后技术原理 对于数据开发人员 对于数据架构人员开发架构设计举一反三 提升效率避免采坑 培养全局架构嗅觉

 

二、数据处理时效性的四大概念

 

实时计算

强调计算实时特征

指计算过程快速、请求响应快速

描述的是业务实时需求特征:出结果一定要快

 

离线计算

强调计算离线特征(非实时)

计算过程离线(非实时)、请求响应离线(非实时)

业务离线需求特征:不要求快,最终出结果就行

 

流计算

强调计算是流式处理的

常驻、事件触发、通常具备实时性

技术特征,而非业务特征

 

批处理

强调计算是批式处理的

非常驻,外界触发、通常不具备实时性

技术特征,而非业务特征

 

数据处理两大门派:批量计算,流式处理

 

流式处理特征:时间属性的事件, 无界的事件集合, 实时的在线处理

 

流式处理的业务价值

图片18.png

具体案例:双十一实时化的价值:电商营销活动提升成交金额

 

 

三、Stream Analytics

Stream Analytics 有两种分别是 Batch analyticsStreaming analytics

 

Batch analytics:

传统的分析方式通常是利用批查询,或将事件记录下来并基于此有限数据集构建应用来完成。为了得到最新数据的分析结果,必须先将它们加入分析数据集并重新执行查询或运行应用,随后将结果写入存储系统或生成报告。

 

Streaming analytics:

流式查询应用会接入实时事件流,并随着事件消费持续产生和更新增果。这些结果数据可能会写入外部数据库系统或以内部状态的形式雄护。

仪表展示应用可以相应地从外部数据库读取数据或直接查询应用的内部状态。

 

流式分析应用的优势?

和批量分析相比,由于流式分析省掉了周期性的数据导入和查询过程,因此从事件中获取指标的延迟更低。不仅如此,批量查询必须处理那些由定期导入和输入有界性导致的人工数据边界,而流式查询则无须考虑该问题。

 

Flink 如何支持数据分析类应用?

Flink 内置了一个符合 ANSI 标准的 SQL 接口,将批、流查询的语义统一起来。无论是在记录事件的静态数据集上还是实时事件流上,相同 SQL 查询都会得到一致的结果。同时 Flink 还支持丰富的用户自定义函数,允许在 SQL 中执行定制化代码。如果还需进一步定制逻辑,可以利用 FIinkDataStreamAPI 和 DataSetAPI 进行更低层次的控制

 

Stream Pipelines 分为两种,PeriodicETL,Data Pipeline

数据都通和E工作业的用途相似,都可以转换、丰富数据,并将其从某个存储系统移动到另一个。但数据省道最以转破波使xi远行,而非理期性程此它支持从一个不断生成数据的演头谈取记录,并将它们以低迷送终动到终点。例如:数据管理可以用来监控文件系统目录中的新文件,并将其被件日态;另一个应用可能会将事件流物化到数据库或增量构建和优化查询案引。

 

数据管道的优势?

和周期性 ETL 作业相比,持续数据曾道可以明显降低将数据移动到目的端的延迟。此外,由于它能够持续消费和发送数据,因此用途更广,支持用例更多。

Flink 如何支持数据管道应用?

很多常见的数据转换和增强操作可以利用 Flink 的 SQL 接口(或  TableAPl)及用户自定义函数解决。如果数据管道有更高级的需求,可以选择更通用的 DataStreamAPI来实现。Flink 为多种数据存储系统(如:Kafka、Kinesis、Elasticserarch、JDBC 数据库系统等)内置了连接器。同时它还提供了文件系统的连续型数据源及数据汇,可用来监控目录变化和以时间分区的方式写入文件

 

Event-Driven Application

事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算,状态更新或其他外部动作。事件驱动型应用是基于状态化流处理来完成。

在该设计中,数据和计算不会分离,应用只需访问本地(内存或碰盘)即可获取数据。

系统容器性的实现依赖于定期向运程持久化存储写入 check 胸 脯。

 

事件驱动型应用的优势?

事件驱动型应用无须查询远程数据库,本地数据访问使得它具有更高的吞吐和更低的延迟,而由于定期向远程持久化存储的 checkpoint 工作可以异步、增量式完成,因此对于正常事件处理的影响甚微。事件驱动型应用的优势不仅限于本地数据访问。

传统分层架构下,通常多个应用会共享同一个数据库,因而任何对数据库自身的更改(例如:由应用更新或服务扩容导致数据布局发生改变)都需要详慎协调。

反观事件驱动型应用,由于只需考虑自身数据,因此在更改数据表示或服务扩容时所需的协调工作将大大减少。

 

Flink 如何支持事件驱动型应用?

事件驱动型应用会受制于底层流处理系统对时间和状态的把控能力,Flink 诸多优秀特质都是围绕这些方面来设计的。

它提供了一系列丰富的状态操作原语,允许以精确一次的一致性语义合并海量规模(TB 级别)的状态数据。此外,Flink 还支持事件时间和自由度极高的定制化窗口逻辑,而且它内置的 Process Function 支 持细粒度时间控制,方便实现一些高级业务逻辑。

同时,Flink 还拥有一个复杂事件处理 (CEP) 类库,可以用来检测数据流中的模式。

 

四、实时风控

风控是用户业务中的核心功能,应用范围非常广泛,包括内容风控、金融风控、营销风控等几大类型。

互联网时代的到来产生大量的数据、访问、请求,新的业务需求促使传统的风控系统需要向大数据场景转型

客户价值

实时性强

大数据场景下高吞吐、低延时,毫秒级报

警拦截

独有事件规则支持

实时计算 Flink 独有的 CEP 语法天然支持规

则设定,完美适配风控场景

 

行业案例

介绍各大行业应用实时计算案例

 

金融行业应用

图片19.png

长链路且快速变化的业务:从业务需求出发,需要分析用户的行为轨迹和交易记录,以应对业务的快速变化。

越来越多的实时数据需求;目前需要更多的实时数据来支持业务决策,比如需要依据流量监控、销售情况等,对不同的资源位做出相应调整,调

时部分活动也需要实时数据来增强与用户的互动,尤其在金融产品营销活动中需要实时针对用户行为调整策略。

越来越高的数据质量要求:数据的结果会直接影响业务决策和线上运营活动的效果,数据质量也决定了计算结果是否可以作为判断的依据.

越来越多的变时风控需求;传统风控系统需要完成从依赖专家规则到智能风控的实时化转变,如信用违约、系户安全、贷款欺诈等典型违法承

 

在线教育行业应用

 

图片20.png

在线教育行业实时化和智能化转型的过程中,对实时数据处理面临很多问题:

数据量大:包括日志、数据库、业务集群数据等均有实时分析需求。

低延时:很多场景对低延时需求非常迫切。使用角色多样化:公司中各个角色,包括 BI 分析师、其他技术人员、业务运营人员等对实时报表都有需求。

需求复杂:在线教育行业业务模型复杂,一些实时 BI 场景逻辑也非常复杂,需要平台有完善的 5QL 支持

 

在内容资讯行业应用图片21.png

在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+ 大数据的解决方案,来进行精细化运营,助力业务发展新模式,从业务级求上来讲,在大数据方面遇到的挑战如下:

1.数据量大,增速迅猛:主流内容分享平台在新增用户数、日均/等核心指标上,产品切期每年都会有翻倍的增长。

2.业务形态复杂;大量内容分享产品的母公司都在探求新的内容输出方式,如新闻类、短视频类、重播美等。各种业务形态基层大,对平台自通用化要求高。

3.实时性要求富;内容分享平台的核心系统有个性化推荐,广告计数,风控等业务,业务上要实现精细化运营,对数据的实时性要求更高。

 

实时计算在电商行业应用

 

 

 

在大数据时代,所有服务抢夺的关键是用户的剩余时间,用户在某个平台可能停留的时间以分钟为单位统计,传统高线“r”的分析骤并记已经过远不能够满足业务上的实时需求,而且用户每一天的需求都可能发生变化,用前一天的数据预测用户今天的变化显然也是不合理的,因此更好的算在电商行业的重要性越发突出。

 

实时计算在广告行业应用

 

 

 

在线反作弊:互联网广告的核心是流量,流量作假将直接影响收益。据ANA统计,大约有 37% 的在线广告点击存在作弊,可见在线反作弊模块的重要性,处理不当可能造成巨大的资金浪费。

在线计费:很多广告系统是程序化交易(如 DSP),每次点击都会扣除广告主相应的费用,这要求系统能够快速完成结算、扣除费用,并下线费用不足的广告。并且计费需要扣除作弊流量,维护广告主的权益。

在线受众定向:受众定向主要是计算用户的各种标签,有时用户短期内的行为更有参考价值,产出的短期标签更有效,比如受众突然看到某篇文章进而对某类产品产生了兴趣。这在效果类广告上更加明显。

在线点击反馈:可以根据用户在线点击情况去调整 CTR 模型以更好的预估点击率。

实时索引:广告是一种商业行为.广告主会根据当前广告的效果调整广告策略,每次调整后都需要尽快生效,否则将造成资金浪费,因此需要实时把广告的更新或发布都建到广告索引中去。

实时广告链接检测:根据访问日志快速判断某些广告链接是否失效,如果失效则快速将其下线,防止资损。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1735 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
1月前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
196 0
Flink CDC 在阿里云实时计算Flink版的云上实践
|
2月前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
120 16
zdl
|
3月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
212 56
|
2月前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
3月前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。
|
SQL 存储 运维
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践
本次分享主要介绍阿里云实时计算平台从 2.0 基于 Yarn 的架构到 3.0 云原生时代的演进,以及在 3.0 平台上一些核心功能的建设实践,如健康分,智能诊断,细粒度资源,作业探查以及企业级安全的建设等。
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践
|
存储 SQL 分布式计算
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践
291 0
|
存储 数据挖掘 Apache
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(2)
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(2)
298 0
|
SQL 存储 人工智能
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(3)
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(3)
277 0

热门文章

最新文章