开发者学堂课程【实时计算 Flink 实战课程:实时计算 Flink 训练营场景与应用】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/762/detail/13352
实时计算 Flink 训练营场景与应用
// 实时风控包括金融、一些其他的带有止损的或者是侦查安全监控类的一些场景会比较常见,对于整个互联网时代的到来,实际上大量的数据、用户访问、请求及大量的业务都会将这个需求逼到一个非常极致的系统架构,而之前对于时效性来说,或者对于实时性要求并没有如此高,对于很多的风控系统来说,用离线的数据就可以进行规则的检测,实际上到目前越来越实时化之后,止损会因为若干时间的推延,导致产生巨大的咨询,此时往往需要用Flink 的实时计算引擎去实时的产生数据,实时产生业务结果至相关的系统规则引擎,此时户在操作时,规则引擎实时后的数据再产生相应的一些规则的判断至业务,判断一个客户是合法客户还是非法的客户,就是观察操作,判断是合法的操作还是有止损产生的操作,故整个实时计算的核心作用就是实时的计算用户,拿到最新的用户的行为及最新业务的系统的周边的结果实时化的进行计算,然后产生的数据至规则引擎,让规则引擎可以实时拿到这些数据,进而产生更加更加实时化的,或者是更加需要的规则及调研的一个结果。
3、实时机器学习
// 实时机器学习是一个更宽泛的概念,对于传统的单色就是传统静态学习机械学,主要侧重于静态的模型和历史数据进行训练问题。其实大部分时候,可以看到用户的短期行为,本质来说其实是对于模型的一些修正或者对业务的判断走向,是有价值或者有必要去做的。对于这种系统来说,需要对其他用户最近的一些行为进行采集,进行特征工程之后让实时机器学习的系统进行阅读学习。此时动态的实时一些新的规则,或者是需要产生一些新的广告等就会有极大的帮助。
// 总结第三章内容:讲解了三个不带行业属性的、通用的,第一,实时数仓,第二,实时风控,第三,实时机器学习。本质上都是前面三个技术场景的网业务跨了一步后形成的业务上产品或者业务上的案例。
四、行业案例
// 在第四章,结合一些业务场景讲解在各个业务行业里的各个领域的实时计算能够产生的价值。举了4~5个实时计算在各个行业的具体案例,但因为受限于偏幅,并不会将每一个案例讲的特别的通透,更多的是描述案例产生的背景、用户的痛点、需要用到实时计算的原因、实时计检查的问题。这次课程是一个新手训练营,更多的还是泛泛而论、科普一下,或者是讨论具体的实时计算相关的一些案例的场景、使用方法等。
1、金融行业应用
// 对于金融行业来说,最近阿里云在商业化客户、在社区的客户都非常火爆的相关领域,因为金融领域实际上是在稍微偏传统的行业里尝试新技术最勇敢、创新的一个行业,所以大量大数据的相关业务都在金融行业进行有效开发,有业务、有数据,同时也有技术产线的意识。现在实计算在金融行业里用的比较多,其实核心的一个特点在于整个金融行业都开始在面向数字化的一个转型。重现一下,都在往网线上、传统网云上进行搬运。
// 第一,由人决策到机器决策到AI 决策的演化,业务会越来越复杂,之前为线下,现在同样有线上的业务,有终端,有APP服务到千家万户的比例也会越来越大,同时业务变化也十分迅速。
// 第二,其实越来越多的数据需要实时的决策,之前都是线下的业务,线下有柜台例如银行的柜台,或者保险的话,是点对点的拜访,点对点清单,其实对整个的数据实时的时效性要求没有如此高,甚至是隔一天或者隔一周去回顾这些数据其实都没有问题,但是现在随着业务线上化之后,包括流量监控,销售的情况等,都完全需要一个实实化的报表、结果,及决策,需要越来越多的系统需要支持实时化。同时数据要求也会越来越高。之前的业务系统其实大部分是人的决策,有很多的线下柜台人员的决策或者是保险客户人员的决策,此时若数据出现错误,实际上不会影响业务。但是随着整个业务化数字化之后,此时数据将直接影响决策和线上运营的活动,所以需要数据的质量越来越高。最后一个是传统的风控项实时化的一个转型,因为之前提及到几个点,包括信用违约账户完全贷款欺诈,这个整个线上化之后就没有太多的客户去参与,此时面临系统需要立刻放弹、立刻出单、立刻转型,此时会导致巨大的一个交易风险,其实针对这种情况,推荐考虑整个使用Flink 实时化计算。这种交互式分析,整个链路的一套系统可以帮助客户从远端的APP到柜台等,整个链路能够实时的采集,实时的计算,最终实时的反馈到业务的线上结果,能够为风控业务、实时报表业务、实时推荐业务及一些其他的支撑型运营的业务能够提供实时化的一个支持。能够解决金融行业目前普遍面临的实时化转型的一个诉求。
2、在线教育行业应用
// 在线教育行业,实际上也是因为疫情,在线行业变得非常火爆,之前有大量传统教育行业最开始面向转型线上行业进行转出,因为不希望把所有的学生集中集中到一个教室,增加了疫情传播的风险,故在线教育就变得火爆,现在目前来说整个教育也从线下搬到线上,传统的直接线上面临着很大的实时化、自动化的需求,主要体现在数量庞大,因为用户蜂拥而至,数据量、用户量,导致用户行为剧增。有越来越多的场景,推荐的场景、运营的场景,实际上都有非常强烈的实时化诉求,使用的角色也是多元化的。对于之前来说,大部分的业务报表,实际上都是老板与领导一起查看的,但是随着整个数据化转型逐步上道,各个中小企业都在实时化,此时数据实际上已经开始逐步发挥价值,之前只有领导才能看到的数据,现在是整个民主化,所有的一线运营人员都能看到报表,能够作运营相关的一些决策。最后还有需求的复杂,就是整个就业还是属于一个偏在线,因为是随着疫情爆发的行业,整个比较新颖的行业,能看到业务快速爆发式的增长。此时看到一些BI 的场景,其实也是处于一个快速变化的、复杂的状态,因为业务在同步的发展,所以需要一套完整的实时解决方案,能够帮助客户去完成业务,数据的实时化和AI化的一个转型,实际上也是实时计算Flink 需要解决的问题。能够帮助用户快速的使用、解决业务的问题,因为 SQL 是一个非常简单易表达的一套语言,这套语言帮助离线的或者是对批处理的数仓已经支持了二三十年的业务,所以对于实时计算来说,前沉睡的未被唤醒的实时计算的业务都可以用实时计算来解决。
3、在内容资讯行业应用
// 内容资讯行业应用,比较广泛,是一个数据密集型行业,因为内容资讯不是一个固定的方式,已经实现了一种类似于像淘宝千人界面的方式,都是完全个性化的推荐,例如今日头条、抖音等,此时需要大量的数据来做实时化的决策及推荐,其实在这个行业里,看到客户面临的数据量非常大且很猛。大部分的公司在某个地方抓住了某一个时间段的客户,抓住一个爆爆发式的增长率或者引爆点,就能实现业务的快速增长。业务形态非常的复杂,因为对于某些公司来说,其实某些有UGC的内容、一些新闻的内容、一些短视频的内容,有些直播形态差异万千,其实对于整个平台构建来说,构建实时化平台的人员对平台的相关数据开发其实要求很高。为了实时性的要求,现在目前来说大部分的内容分享的平台里就有个性化推荐,广告也有分控系统,这些都需要实时化、离线,现有的离线已经无法满足这些行业对于数据快速变化产生业务价值的诉求。而这一部分能够实时的将在线的业务系统、用户的某些系统,用户的行为能够实时的去获取、计算追踪、产生结果,服务于线上运营现场的风控和现场广告的业务。
4、实时计算在电商行业应用
// 实时计算在电商行业应用,其实是Flink 在阿里第一个实施的是电商行业,而且此行业已经非常成熟,可以举出的例子也十分多,包括之前天猫双十一的举例,一个店铺,一个商家,老板需要实时知道整个天猫渠道出货的情况,广告投放的情况,来调整相应的一些策略,能够保证在天猫双十一短短的24小时里能够创造最大的收益,此时数据对决策来说十分关键。目前来说,电商行业特别是有集中式爆发的大促的电商行业,对于时效性要求也是十分高的,这部分不作详细讲解,因为整个阿里来说都是基于实时化的应用,实化的数据几乎都是基于Flink 实时计算之后再进行构建的。
5、实时计算在广告行业应用
// 实时计算在广告行业的应用,在广告行业从诞生之初,都是一个时效性要求十分高的行业。与之前的提到的教育、金融的某些领域都不太一样。之前内容还能容忍非实时化、理想化,但对于广告来说,大部分的场景或者是核心的场景,最开始就是实时化的,因为整个用户行为不停的产生结果,不停给实时计算系统进行相应的计算。在线的反作弊,广告的核心就是流量,流量的作假直接会影响公司的营收。在线的计费都是涉及到广告投放的计费、在线社会中的定向广告的推荐、在线点击的反馈、实时的索引、实时的广告链接的检测等这些行业,这些其实之前都在使用偏流式系统,甚至有些能在社区看到。商业的话,甚至客户自己编写代码完成,其实从成本收益来说,价值不高,因为自己维护一套,特别是自己完全构建的一套系统,投入会十分高,其实在大部分的广告场景里面,大部分的广告行业里面计算相应的一些任务、指标的话,推荐Flink ,因为能够极大的减少业务人员、业务开发人员、架构人员在实际上操作遇到的各种各样的不确定性,能够做到十分稳定的产生、计算指标,最终服务广告的业务,保证公司在广告这部分的收益。实际上整个来说,类似于广告最开始就是一个实时密集型的公司,在领域里扮演了这样一个角色。
五、总结
// 回顾整个内容,从最开始讲解的技术原理,从计算的四大分类到批处理流处理的对比,再到流处理的具体特点,最后以天猫双十一为例,讲述引申出流计算流处理的业务价值。 接下来内容非常关键的三个技术场景,所有的业务场景和行业案例都是基于技术场景做叠加、组合及转化包装的结果。 三个不带行业属性的业务场景:实时数仓、实时风控及实时机器学习,是Flink 在各个行业里应用十分多的抽象出来的三个场景。 最后行业案例,举了五个行业案例,实际上是之前三个业务场景在不同行业实施的最佳实践。然后从每个行业里展示、讲述遇到的问题、需要实时计算的原因以及实时计算能够解决的挑战和困难等,同时利用抽象的架构图讲解实时计算在整个大数据或者实时处理链路在每个行业、每个案例里所处的位置。