《应用场景与实时计算 Flink 版产品介绍》|学习笔记-阿里云开发者社区

《应用场景与实时计算 Flink 版产品介绍》|学习笔记

2021-12-19 157

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 快速学习《应用场景与实时计算 Flink 版产品介绍》

开发者学堂课程【《实时计算Flink 版产品入门与实操》：《应用场景与实时计算 Flink 版产品介绍》】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/334/detail/3736

《应用场景与实时计算 Flink 版产品介绍》

一、技术原理，技术应用

二、数据处理时效性的四大概念

三、Stream Analytics

四、实时风控

技术原理

通晓原理→举一反三

容易混淆的四大概念

批处理 VS 流处理

流处理：事件触发的处理

通晓原理举一反三图片17.png

通晓产品背后技术原理对于数据开发人员对于数据架构人员开发架构设计举一反三提升效率避免采坑培养全局架构嗅觉

二、数据处理时效性的四大概念

实时计算

强调计算实时特征

指计算过程快速、请求响应快速

描述的是业务实时需求特征：出结果一定要快

离线计算

强调计算离线特征(非实时)

计算过程离线(非实时)、请求响应离线(非实时)

业务离线需求特征：不要求快，最终出结果就行

流计算

强调计算是流式处理的

常驻、事件触发、通常具备实时性

技术特征，而非业务特征

批处理

强调计算是批式处理的

非常驻，外界触发、通常不具备实时性

技术特征，而非业务特征

数据处理两大门派:批量计算，流式处理

流式处理特征:时间属性的事件，无界的事件集合，实时的在线处理

流式处理的业务价值

图片18.png

具体案例:双十一实时化的价值：电商营销活动提升成交金额

三、Stream Analytics

Stream Analytics 有两种分别是 Batch analytics，Streaming analytics

Batch analytics:

传统的分析方式通常是利用批查询，或将事件记录下来并基于此有限数据集构建应用来完成。为了得到最新数据的分析结果，必须先将它们加入分析数据集并重新执行查询或运行应用，随后将结果写入存储系统或生成报告。

Streaming analytics:

流式查询应用会接入实时事件流，并随着事件消费持续产生和更新增果。这些结果数据可能会写入外部数据库系统或以内部状态的形式雄护。

仪表展示应用可以相应地从外部数据库读取数据或直接查询应用的内部状态。

流式分析应用的优势?

和批量分析相比，由于流式分析省掉了周期性的数据导入和查询过程，因此从事件中获取指标的延迟更低。不仅如此，批量查询必须处理那些由定期导入和输入有界性导致的人工数据边界，而流式查询则无须考虑该问题。

Flink 如何支持数据分析类应用?

Flink 内置了一个符合 ANSI 标准的 SQL 接口，将批、流查询的语义统一起来。无论是在记录事件的静态数据集上还是实时事件流上，相同 SQL 查询都会得到一致的结果。同时 Flink 还支持丰富的用户自定义函数，允许在 SQL 中执行定制化代码。如果还需进一步定制逻辑，可以利用 FIinkDataStreamAPI 和 DataSetAPI 进行更低层次的控制

Stream Pipelines 分为两种，PeriodicETL，Data Pipeline

数据都通和E工作业的用途相似，都可以转换、丰富数据，并将其从某个存储系统移动到另一个。但数据省道最以转破波使xi远行，而非理期性程此它支持从一个不断生成数据的演头谈取记录，并将它们以低迷送终动到终点。例如：数据管理可以用来监控文件系统目录中的新文件，并将其被件日态；另一个应用可能会将事件流物化到数据库或增量构建和优化查询案引。

数据管道的优势?

和周期性 ETL 作业相比，持续数据曾道可以明显降低将数据移动到目的端的延迟。此外，由于它能够持续消费和发送数据，因此用途更广，支持用例更多。

Flink 如何支持数据管道应用?

很多常见的数据转换和增强操作可以利用 Flink 的 SQL 接口(或 TableAPl)及用户自定义函数解决。如果数据管道有更高级的需求，可以选择更通用的 DataStreamAPI来实现。Flink 为多种数据存储系统(如：Kafka、Kinesis、Elasticserarch、JDBC 数据库系统等)内置了连接器。同时它还提供了文件系统的连续型数据源及数据汇，可用来监控目录变化和以时间分区的方式写入文件

Event-Driven Application

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算，状态更新或其他外部动作。事件驱动型应用是基于状态化流处理来完成。

在该设计中，数据和计算不会分离，应用只需访问本地(内存或碰盘)即可获取数据。

系统容器性的实现依赖于定期向运程持久化存储写入 check 胸脯。

事件驱动型应用的优势?

事件驱动型应用无须查询远程数据库，本地数据访问使得它具有更高的吞吐和更低的延迟，而由于定期向远程持久化存储的 checkpoint 工作可以异步、增量式完成，因此对于正常事件处理的影响甚微。事件驱动型应用的优势不仅限于本地数据访问。

传统分层架构下，通常多个应用会共享同一个数据库，因而任何对数据库自身的更改(例如：由应用更新或服务扩容导致数据布局发生改变)都需要详慎协调。

反观事件驱动型应用，由于只需考虑自身数据，因此在更改数据表示或服务扩容时所需的协调工作将大大减少。

Flink 如何支持事件驱动型应用?

事件驱动型应用会受制于底层流处理系统对时间和状态的把控能力，Flink 诸多优秀特质都是围绕这些方面来设计的。

它提供了一系列丰富的状态操作原语，允许以精确一次的一致性语义合并海量规模(TB 级别)的状态数据。此外，Flink 还支持事件时间和自由度极高的定制化窗口逻辑，而且它内置的 Process Function 支持细粒度时间控制，方便实现一些高级业务逻辑。

同时，Flink 还拥有一个复杂事件处理 (CEP) 类库，可以用来检测数据流中的模式。

四、实时风控

风控是用户业务中的核心功能，应用范围非常广泛，包括内容风控、金融风控、营销风控等几大类型。

互联网时代的到来产生大量的数据、访问、请求，新的业务需求促使传统的风控系统需要向大数据场景转型

客户价值

实时性强

大数据场景下高吞吐、低延时，毫秒级报

警拦截

独有事件规则支持

实时计算 Flink 独有的 CEP 语法天然支持规

则设定，完美适配风控场景

行业案例

介绍各大行业应用实时计算案例

金融行业应用

图片19.png

长链路且快速变化的业务：从业务需求出发，需要分析用户的行为轨迹和交易记录，以应对业务的快速变化。

越来越多的实时数据需求；目前需要更多的实时数据来支持业务决策，比如需要依据流量监控、销售情况等，对不同的资源位做出相应调整，调

时部分活动也需要实时数据来增强与用户的互动，尤其在金融产品营销活动中需要实时针对用户行为调整策略。

越来越高的数据质量要求：数据的结果会直接影响业务决策和线上运营活动的效果，数据质量也决定了计算结果是否可以作为判断的依据.

越来越多的变时风控需求；传统风控系统需要完成从依赖专家规则到智能风控的实时化转变，如信用违约、系户安全、贷款欺诈等典型违法承

在线教育行业应用

图片20.png

在线教育行业实时化和智能化转型的过程中，对实时数据处理面临很多问题：

数据量大：包括日志、数据库、业务集群数据等均有实时分析需求。

低延时：很多场景对低延时需求非常迫切。使用角色多样化：公司中各个角色，包括 BI 分析师、其他技术人员、业务运营人员等对实时报表都有需求。

需求复杂：在线教育行业业务模型复杂，一些实时 BI 场景逻辑也非常复杂，需要平台有完善的 5QL 支持

在内容资讯行业应用图片21.png

在日益激烈的行业竞争态势下，各个主流内容资讯提供商都在探索 AI+ 大数据的解决方案，来进行精细化运营，助力业务发展新模式，从业务级求上来讲，在大数据方面遇到的挑战如下：

1.数据量大，增速迅猛：主流内容分享平台在新增用户数、日均／等核心指标上，产品切期每年都会有翻倍的增长。

2.业务形态复杂；大量内容分享产品的母公司都在探求新的内容输出方式，如新闻类、短视频类、重播美等。各种业务形态基层大，对平台自通用化要求高。

3.实时性要求富；内容分享平台的核心系统有个性化推荐，广告计数，风控等业务，业务上要实现精细化运营，对数据的实时性要求更高。

实时计算在电商行业应用

在大数据时代，所有服务抢夺的关键是用户的剩余时间，用户在某个平台可能停留的时间以分钟为单位统计，传统高线“r”的分析骤并记已经过远不能够满足业务上的实时需求，而且用户每一天的需求都可能发生变化，用前一天的数据预测用户今天的变化显然也是不合理的，因此更好的算在电商行业的重要性越发突出。

实时计算在广告行业应用

在线反作弊：互联网广告的核心是流量，流量作假将直接影响收益。据ANA统计，大约有 37% 的在线广告点击存在作弊，可见在线反作弊模块的重要性，处理不当可能造成巨大的资金浪费。

在线计费：很多广告系统是程序化交易(如 DSP)，每次点击都会扣除广告主相应的费用，这要求系统能够快速完成结算、扣除费用，并下线费用不足的广告。并且计费需要扣除作弊流量，维护广告主的权益。

在线受众定向：受众定向主要是计算用户的各种标签，有时用户短期内的行为更有参考价值，产出的短期标签更有效，比如受众突然看到某篇文章进而对某类产品产生了兴趣。这在效果类广告上更加明显。

在线点击反馈：可以根据用户在线点击情况去调整 CTR 模型以更好的预估点击率。

实时索引：广告是一种商业行为.广告主会根据当前广告的效果调整广告策略，每次调整后都需要尽快生效，否则将造成资金浪费，因此需要实时把广告的更新或发布都建到广告索引中去。

实时广告链接检测：根据访问日志快速判断某些广告链接是否失效，如果失效则快速将其下线，防止资损。

《应用场景与实时计算 Flink 版产品介绍》|学习笔记

《应用场景与实时计算 Flink 版产品介绍》

技术原理

二、数据处理时效性的四大概念

三、Stream Analytics

四、实时风控

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景