实时计算 Flink 训练营场景与应用|学习笔记(三)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习实时计算 Flink 训练营场景与应用

开发者学堂课程【实时计算 Flink 实战课程实时计算 Flink 训练营场景与应用】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/762/detail/13352


实时计算 Flink 训练营场景与应用

// 实时风控包括金融一些其他的带有止损的或者是侦查安全监控类的一些场景会比较常见,对于整个互联网时代的到来,实际上大量的数据用户访问请求大量的业务都会这个需求逼到一个非常极致的系统架构,而之前对于时效性来说,或者对于实时性要求没有如此高,对于很多的风控系统来说,用离线的数据可以进行规则的检测,实际上到目前越来越实时化之后,止损会因为若干时间的推延,导致产生巨大的咨询,此时往往需要用Flink 的实时计算引擎去实时的产生数据,实时产生业务结果至相关的系统规则引擎,此时操作时,规则引擎实时后数据再产生相应的一些规则的判断业务,判断一个客户是合法客户还是非法的客户就是观察操作,判断是合法的操作还是有止损产生的操作,整个实时计算的核心作用就是实时的计算用户到最新的用户的行为最新业务的系统的周边的结果实时化的进行计算,然后产生的数据规则引擎让规则引擎可以实时拿到这些数据,进而产生更加更加实时化的,或者是更加需要规则及调研的一个结果。

3、实时机器学习

实时计算Flink训练营场景与应用-7628053.png 

// 实时机器学习是一个更宽泛的概念,对于传统的单色就是传统态学习机械学,主要侧重于静态的模型和历史数据进行训练问题。其实大部分时候可以看到用户的短期行为,本质来说其实是对于模型的一些修正或者对业务的判断走向是有价值或者有必要去做的。对于这种系统来说,需要其他用户最近的一些行为进行采集,进行特征工程之后让实时机器学习的系统进行阅读学习。此时动态的实时一些新的规则,或者是需要产生一些新的广告等就会有极大的帮助

// 总结第三章内容:讲解了三个不带行业属性的、通用的,第一,实时数仓,第二,实时风控,第三,实时机器学习。本质上都是前面三个技术场景的网业务跨了一步后形成的业务上产品或者业务上的案例

 

四、行业案例

实时计算Flink训练营场景与应用-7628369.png

// 第四结合一些业务场景讲解在各个业务行业里的各个领域实时计算能够产生价值。举了4~5个实时计算在各个行业的具体案例,但因为受限于偏幅,并不会将每一个案例讲的特别的通透,更多的是描述案例产生的背景用户痛点需要用到实时计算的原因、实时计检查问题这次课程是一个新手训练营,更多的还是泛泛而论科普一下,或者是讨论具体的实时计算相关的一些案例场景使用方法等。

1、金融行业应用

实时计算Flink训练营场景与应用-7628572.png

// 对于金融行业来说,最近阿里云商业化客户在社区的客户都非常火爆的相关领域,因为金融领域实际上是在稍微传统的行业里尝试新技术最勇敢、创新的一个行业,所以大量大数据的相关业务都在金融行业进行有效开发,有业务有数据,同时也有技术产线的意识。现在实计算在金融行业里用的比较多其实核心的一个特点在于整个金融行业都开始在面向数字化的一个转型。重现一下,都在网线上传统网云上进行搬运

// 第一,由人决策机器决策到AI 决策的演化,业务会越来越复杂,之前为线下,现在同样有线上的业务,有终端,有APP服务到千家万户的比例也会越来越,同时业务变化也十分迅速。

// 第二其实越来越多的数据需要实时的决策,之前都是线下的业务线下有柜台例如银行的柜台或者保险的话是点对点的拜访,点对点清单,其实整个的数据实时的时效性要求没有如此高,甚至是隔一天或者隔一周去回顾这些数据其实都没有问题,但是现在随着业务线上化之后包括流量监控,销售的情况等,完全需要一个实实的报表结果,决策,需要越来越多的系统需要支持实时化。同时数据要求会越来越高。之前的业务系统其实大部分是人的决策,有很多线下柜台人员的决策或者是保险客户人员的决策,此时若数据出现错误,实际上不会影响业务。但是随着整个业务化数字化之后,此时数据将直接影响决策和线上运营的活动,所以需要数据质量越来越高。最后一个是传统的风控项实时化的一个转型,因为之前提及到几个点,包括信用违约账户完全贷款欺诈,这个整个线上化之后没有太多的客户去参与此时面临系统需要立刻放弹立刻出单立刻转型,此时会导致巨大的一个交易风险,其实针对这种情况,推荐考虑整个使用Flink 实时化计算。这种交互式分析,整个链路的一套系统可以帮助客户从远端的APP到柜台等,整个链路能够实时的采集实时的计算,最终实时的反馈到业务的线上结果,能够为风控业务实时报表业务实时推荐业务一些其他的支撑型运营的业务能够提供实时化的一个支持。能够解决金融行业目前普遍面临的实时化转型的一个诉求。

2、在线教育行业应用

实时计算Flink训练营场景与应用-7629456.png

// 在线教育行业,实际上也是因为疫情,在线行业变得非常火爆之前有大量传统教育行业最开始面向转型线行业进行转出,因为不希望把所有的学生集中集中到一个教室,增加了疫情传播的风险在线教育就变得火爆,现在目前来说整个教育也从线下搬到线上,传统的直接线上面临着很大的实时自动化的需求,主要体现在数量庞大,因为用户蜂拥而至数据量用户量,导致用户行为剧增。有越来越多的场景,推荐的场景运营的场景,实际上有非常强烈的实时化诉求,使用的角色也是多化的对于之前来说大部分的业务报表,实际上都是老板领导一起查看的,但是随着整个数据化转型逐步上道,各个中小企业都在实时化此时数据实际上已经开始逐步发挥价值,之前只有领导才能看到的数据,现在是整个民主化,所有的一线运营人员都能看到报表,能够运营相关的一些决策。最后还有需求的复杂,就是整个就业还是属于一个偏在线,因为是随着疫情爆发的行业,整个比较新颖的行业,能看到业务快速爆发式的增长。此时看到一些BI 的场景,其实也是处于一个快速变化的复杂的状态,因为业务在同步的发展,所以需要一套完整的实时解决方案,能够帮助客户去完成业务,数据的实时化和AI化的一个转型,实际上也是实时计算Flink 需要解决问题。能够帮助用户快速的使用解决业务的问题,因为 SQL 是一个非常简单易表达的一套语言,这套语言帮助离线的或者是对批处理的数仓已经支持了二三十年的业务,所以对于实时计算来说前沉睡的未被唤醒的实时计算的业务都可以用实时计算来解决。

3、在内容资讯行业应用

实时计算Flink训练营场景与应用-76210120.png

// 内容资讯行业应用比较广泛,是一个数据密集型行业,因为内容资讯不是一个固定的方式,已经实现了一种类似于像淘宝千人界面方式,都是完全个性化的推荐,例如今日头条抖音等,此时需要大量的数据来做实时化的决策推荐,其实这个行业里,看到客户面临数据量非常大且很猛大部分的公司在某个地方抓住了某一个时间段的客户抓住一个爆爆发式的增长率或者引爆点,就实现业务的快速增长。业务形态非常的复杂,因为对于某些公司来说,其实有UGC的内容些新闻的内容一些短视频的内容,有些直播形态差异万千,其实对于整个平台构建来说,构建实时化平台的人员平台的相关数据开发其实要求很高为了实时性要求现在目前来说大部分的内容分享的平台里就有个性化推荐广告也有分控系统,这些都需要实时化、离线,现有的离线已经无法满足这些行业对于数据快速变化产生业务价值的诉求。而这一部分能够实时的在线的业务系统用户的某些系统,用户行为能够实时的去获取、计算追踪产生结果,服务线上运营现场的风控和现场广告的业务

4、实时计算在电商行业应用

实时计算Flink训练营场景与应用-76210589.png

// 实时计算在电商行业应用,其实是Flink 在阿里第一个实施的是电商行业,而且行业已经非常成熟,可以出的例子也十分多,包括之前天猫双十一举例,一个店铺,一个商家老板需要实时知道整个天猫渠道出货的情况,广告投放的情况,调整相应的一些策略,能够保证天猫双十一短短的24小时能够创造最大的收益此时数据对决策来说十分关键。目前来说电商行业特别是有集中式爆发的大促的电商行业,对于时效性要求也是十分高的,这部分作详细讲解,因为整个阿里来说都是基于实时化的应用,实化的数据几乎都是基于Flink 实时计算之后进行构建的。

5、实时计算在广告行业应用

实时计算Flink训练营场景与应用-76210875.png

// 实时计算在广告行业的应用,广告行业从诞生之初,都是一个时效性要求十分高的行业。与之前的提到的教育金融的某些领域都不太一样。之前内容还能容忍非实时理想化,但对于广告来说,大部分的场景或者是核心的场景,最开始就是实时化的,因为整个用户行为不停的产生结果,不停给实时计算系统进行相应的计算。在线的反作弊广告的核心就是流量,流量作假直接会影响公司的营收在线的计费都是涉及到广告投放的计费在线社会中的定向广告的推荐在线点击的反馈实时的索引、实时的广告链接的检测等这些行业,这些其实之前都在使用偏流式系统甚至有些能在社区看到商业的话,甚至客户自己编写代码完成,其实从成本收益来说,价值不因为自己维护一套,特别是自己完全构建一套系统,投入会十分高,其实在大部分的广告场景里面,大部分的广告行业里面计算相应的一些任务指标的话,推荐Flink ,因为能够极大的减少业务人员业务开发人员架构人员在实际上操作遇到的各种各样不确定性,能够做到十分稳定的产生计算指标,最终服务广告的业务保证公司在广告这部分的收益实际上整个来说类似于广告最开始是一个实时密集型的公司领域扮演了这样一个角色。

 

五、总结

实时计算Flink训练营场景与应用-76211396.png

// 回顾整个内容,从最开始讲解的技术原理,从计算的四大分类到批处理流处理的对比,再到流处理的具体特点,最后以天猫双十一例,讲述引申出流计算流处理的业务价值 接下来内容非常关键的三个技术场景,所有的业务场景和行业案例都是基于技术场景做叠加、组合及转化包装的结果。个不带行业属性的业务场景实时数仓实时风控及实时机器学习,是Flink 在各个行业里应用十分多的抽象出来三个场景。 最后行业案例,举了五个行业案例实际上是之前三个业务场景在不同行业实施的最佳实践。然后从每个行业里展示讲述遇到的问题需要实时计算的原因以及实时计算能够解决挑战和困难等,同时利用抽象的架构图讲解实时计算在整个大数据或者实时处理链路在每个行业每个案例里所处的位置。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
29天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110804 100
阿里云实时计算Flink的产品化思考与实践【下】
|
14天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
37 0
|
2月前
|
资源调度 Kubernetes Java
Flink--day02、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--day022、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
136 5
|
2月前
|
消息中间件 SQL NoSQL
Flink数据源问题之自定义如何解决
Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件;本合集将探讨Flink数据源的类型、配置方法和最佳实践,以及在使用数据源时可能遇到的错误和解决方案。
30 3
|
2月前
|
机器学习/深度学习 消息中间件 算法
Flink ML的新特性解析与应用
本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI特征工程专场的分享。
129265 4
Flink ML的新特性解析与应用
|
2月前
|
SQL 存储 人工智能
Flink 在蚂蚁实时特征平台的深度应用
本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。
524 3
Flink 在蚂蚁实时特征平台的深度应用
|
3月前
|
消息中间件 存储 NoSQL
Flink几道经典编程场景
Flink几道经典编程场景
|
3月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
46940 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
3月前
|
存储 SQL 分布式数据库
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案
|
3月前
|
SQL 关系型数据库 MySQL
Apache Flink 和 Paimon 在自如数据集成场景中的使用
Apache Flink 和 Paimon 在自如数据集成场景中的使用
314 0