《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(1)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(1)

作者:郭育波


用户背景

众安在线财产保险股份有限公司(以下简称“众安”)是中国首家互联网保险公司,众安总部位于上海,不设任何分支机构,完全通过互联网展业。由“保险+科技”双引擎驱动,众安专注于应用新技术重塑保险价值链,围绕健康、数字生活、消费金融、汽车四大生态,以科技服务新生代,为其提供个性化、定制化、智能化的新保险。  


平台概况

image.png

上图是众安保险的实时计算整体架构图,最下层是数据源层,包括了来自于应用系统的业务数据、应用系统的消息数据、用户行为埋点数据以及应用日志数据,这些数据都会经过 Flink 进入实时数仓。  


实时数仓分为四层:  


第一层是 ODS 层,数据经过 Flink 到 ODS 层后会关联一张原始表,这个表是和数据源一一对应的,然后会有一个视图表对原始数据进行简单的清洗加工;


数据经过 Flink 下发到 DWD 层,DWD 层是基于主题域进行划分的,我们现在划分为用户数据域、营销数据域、信贷数据域和保险数据域等;另外还有一部分是 DIM 层,包含用户相关、产品相关和渠道相关等维表数据,DIM 层的数据会保存到 HBase 中;


经过 DWD 层的数据清洗之后,数据下发到 DWS 层,DWS 层会对数据进行整合汇总,一般会有指标宽表和多维明细宽表;


最后这些数据会进入 ADS 层,服务具体多样的数据应用。这一层包含多样的 OLAP 数据存储引擎,包括使用 ClickHouse 作为大盘实时报表的存储引擎,使用HBase 和阿里云的 TableStore 为用户标签和特征工程提供数据存储服务,以及使用ES服务实时监控场景。

image.png

上图是众安保险的实时计算平台架构图。在任务管理模块里面编辑和提交任务,任务编辑器同时支持 Flink SQL 和 Flink JAR 任务,提供了比较便利的 Flink SQL 编辑功能和调试功能,也支持多种任务启动策略,比如基于 checkpoint、offset、时间点和最早位置等,还支持定时和即时生成 checkpoint 功能。任务提交之后,会通过 Flink 客户端将它提交到我们自建的 CDH 集群里。任务管理服务也会定时从 Yarn 获取任务的实时状态。


监控方面,Flink 会把指标日志数据推送到 PushGateway,Prometheus 获取 PushGateway 这些指标之后会在 Grafana 进行数据的可视化展示。除了对任务异常的状态监控之外,众安还会对资源使用率、消息积压等多种情况进行实时告警。此外 Flink 还支持了比较多的 connector,比如阿里云的 ODPS、TableStore 和 Hologres,也内置了丰富的 UDF 并且支持用户自定义 UDF。









相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
379 1
|
27天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
315 33
The Past, Present and Future of Apache Flink
|
3月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
904 13
Apache Flink 2.0-preview released
|
3月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
119 3
|
16天前
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
340 2
探索Flink动态CEP:杭州银行的实战案例
|
22天前
|
数据处理 数据安全/隐私保护 流计算
Flink 三种时间窗口、窗口处理函数使用及案例
Flink 是处理无界数据流的强大工具,提供了丰富的窗口机制。本文介绍了三种时间窗口(滚动窗口、滑动窗口和会话窗口)及其使用方法,包括时间窗口的概念、窗口处理函数的使用和实际案例。通过这些机制,可以灵活地对数据流进行分析和计算,满足不同的业务需求。
138 27
|
8月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
262 14
|
8月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
147 1
|
8月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
8月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
367 0

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多