《Apache Flink 案例集(2022版)》——5.数字化转型——联通-联通实时计算平台演进与实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——5.数字化转型——联通-联通实时计算平台演进与实践

用户背景

中国联合网络通信集团有限公司,是中华人民共和国一家主要从事通信业的中央企业,也是中国第三大电信运营商,在中国内地31个省、市、自治区运营移动与固网通信业务。


业务需求

电信行业的业务系统非常复杂,所以它的数据源也是非常多的,目前实时计算平台接入了 30 多种数据源,这 30 多种数据源相对于总的数据种类来说是比较小的。即使这样,联通的数据量也达到了万亿级别,每天有 600TB 的数据增量,而且接入的数据源种类和大小还在持续增长。平台的用户来自于全国 31 个省份公司以及联通集团的各个子公司,尤其是在节假日会有大量用户去做规则的订阅。用户想要获取数据,需要在平台上进行订阅,联通会将数据源封装成标准化的场景,目前已经有 26 种标准化场景,支撑了 5000 多个规则的订阅。


image.png


对于实时计算平台来说,实时性的要求是很高的。数据从产生到进入联通的系统,大概有 5~20 秒的延迟,经过系统正常处理之后大概有 3~10 秒的延迟,联通允许的最大延迟是 5 分钟,所以必须做好实时计算平台端到端的延迟的监控。


平台建设


2020 年以前,联通是使用 Kafka + Spark Streaming 的方案来实现的,而且是采购厂商的第三方平台,遇到了很多问题和瓶颈,难以满足日常的需求。与此同时,很多企业都正在进行数字化改革,系统的自研比例也越来越高,再加上需求的驱动,自研、可灵活定制、可控的系统迫在眉睫。在这个背景下,联通从2020 年开始接触Flink,并实现了基于Flink的实时计算平台。


image.png


既往平台存在的问题如上图所示。为了解决这些问题,联通自研了基于 Flink 的实时计算平台,根据每个场景的特点进行最优的定制,最大化资源的使用效率。同时利用 Flink 内置状态存储的特性减少外部依赖,降低了程序的复杂度,提升程序的性能。通过灵活定制实现了资源的优化,相同体量的需求下大大节约了资源。此外,为了保证系统的低延迟率,还进行了端到端的监控,比如增加了数据的积压、延迟、数据断传监控等。


image.png

联通的Flink集群需要日均处理 1.5 万亿数据,近 600TB 的数据增量,对稳定性的要求比较高,因此是独立搭建的。它独享了 550 台服务器,没有和离线计算混用。

 

image.png


联通对场景深度定制的主要原因是数据量大,同一个场景的订阅又非常多,而且每个订阅的条件又是不一样的。从 Kafka 读取一条数据的时候,这条数据要匹配多个规则,匹配中后才会下发到规则对应的 topic 里面。所以不管有多少订阅,只从 Kafka 中读取数据一次,这样能够降低对 Kafka 的消耗。


手机打电话或者上网都会连接到基站,相同基站的数据会按一定的时长窗口和固定消息进行压缩,比如三秒钟一个窗口,或者消息达到了 1000 再进行触发,这样下游接收到的消息就会有量级的降低。然后是围栏匹配,外部系统的压力是基于基站规模的,而不是基于消息数目。再就是充分利用了 Flink 的状态,当人员进入和滞留的时候会存入状态,用 RocksDB 状态后端减少了外部依赖,简化了系统的复杂度。此外,联通还实现了亿级标签的关联不依赖外部系统,通过数据压缩、围栏匹配、进入驻留、标签关联后才开始正式匹配规则。


用户订阅场景后,订阅的规则会以 Flink CDC 的方式同步到实时计算平台,这样可以保证延迟比较低。由于人群的进入滞留会存入到状态,基于 RocksDB 的状态后端数据量比较大,联通会通过解析状态的数据进行问题排查,比如用户到底有没有在围栏之中。


image.png


此外,联通还搭建了基于 Flink 的集群治理架构,通过采集资源队列的信息,解析 NameNode 的元数据文件 Fsimage,采集计算引擎的作业等信息等,对集群做 HDFS 画像、作业画像,数据血缘、冗余计算画像、RPC 画像以及资源画像。


image.png


联通通过基于Flink进行实时计算平台建设和集群治理,有效提高了计算资源的利用率,存储文件数降低 60% 以上,RPC 负载也大幅降低,从而解决了长期以来的资源紧张问题,降低了集群扩容开支,每年会有千万级别的成本节约。


未来规划


首先,目前联通还没有一个完善的实时流管理平台,且监控比较分散,研发通用的管理和监控平台势在必行。 其次,面对日益增长的需求,深度定制化虽然节约了资源,提升了支撑的规模,但是它的开发效率并不理想。针对数据量不大的场景,联通考虑使用 Flink SQL 来搭建通用的平台,以此来提升研发效率。 最后,联通会继续探索 Flink 在数据湖中的应用。



相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
11天前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
27天前
|
SQL 存储 API
Flink实践:通过Flink SQL进行SFTP文件的读写操作
虽然 Apache Flink 与 SFTP 之间的直接交互存在一定的限制,但通过一些创造性的方法和技术,我们仍然可以有效地实现对 SFTP 文件的读写操作。这既展现了 Flink 在处理复杂数据场景中的强大能力,也体现了软件工程中常见的问题解决思路——即通过现有工具和一定的间接方法来克服技术障碍。通过这种方式,Flink SQL 成为了处理各种数据源,包括 SFTP 文件,在内的强大工具。
91 15
|
1月前
|
消息中间件 canal 数据采集
Flink CDC 在货拉拉的落地与实践
陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案,详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效,并展望了未来发展方向。
435 14
Flink CDC 在货拉拉的落地与实践
|
13天前
|
存储 运维 监控
阿里云实时计算Flink版的评测
阿里云实时计算Flink版的评测
44 15
|
2月前
|
Oracle 关系型数据库 新能源
Flink CDC 在新能源制造业的实践
本文撰写自某新能源企业的研发工程师 单葛尧 老师。本文详细介绍该新能源企业的大数据平台中 CDC 技术架构选型和 Flink CDC 的最佳实践。
395 13
Flink CDC 在新能源制造业的实践
|
12天前
|
运维 分布式计算 监控
评测报告:阿里云实时计算Flink版
本评测主要针对阿里云实时计算Flink版在用户行为分析中的应用。作为一名数据分析师,我利用该服务处理了大量日志数据,包括用户点击流和登录行为。Flink的强大实时处理能力让我能够迅速洞察用户行为变化,及时调整营销策略。此外,其卓越的性能和稳定性显著降低了运维负担,提升了项目效率。产品文档详尽且易于理解,但建议增加故障排查示例。
|
11天前
|
机器学习/深度学习 运维 监控
阿里云实时计算Flink版体验评测
阿里云实时计算Flink版提供了完善的产品内引导和丰富文档,使初学者也能快速上手。产品界面引导清晰,内置模板简化了流处理任务。官方文档全面,涵盖配置、开发、调优等内容。此外,该产品在数据开发和运维方面表现优秀,支持灵活的作业开发和自动化运维。未来可增强复杂事件处理、实时可视化展示及机器学习支持,进一步提升用户体验。作为阿里云大数据体系的一部分,它能与DataWorks、MaxCompute等产品无缝联动,构建完整的实时数据处理平台。
|
SQL 消息中间件 分布式计算
《Apache Flink 案例集(2022版)》——5.数字化转型——移动云Apache Flink 在移动云实时计算的实践(上)
《Apache Flink 案例集(2022版)》——5.数字化转型——移动云Apache Flink 在移动云实时计算的实践(上)
258 0
|
数据采集 分布式计算 Kubernetes
《Apache Flink 案例集(2022版)》——5.数字化转型——移动云Apache Flink 在移动云实时计算的实践(下)
《Apache Flink 案例集(2022版)》——5.数字化转型——移动云Apache Flink 在移动云实时计算的实践(下)
286 0
|
存储 SQL 传感器
【Flink】(04)Apache Flink 漫谈系列 —— 实时计算 Flink 与 Alibaba Cloud Realtime Compute 剖析2
【Flink】(04)Apache Flink 漫谈系列 —— 实时计算 Flink 与 Alibaba Cloud Realtime Compute 剖析2
588 0
【Flink】(04)Apache Flink 漫谈系列 —— 实时计算 Flink 与 Alibaba Cloud Realtime Compute 剖析2

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多
    下一篇
    无影云桌面