《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(3)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(3)

《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink  在 众安保险金融业务的应用(2) https://developer.aliyun.com/article/1228200



2. 实时特征  


特征工程主要服务于金融风控场景,比如决策引擎、反欺诈、风控模型服务等。特征工程主要的目的是将原始数据转换为更好的表述问题本质的过程。使用这些特征可以提高我们对一些不可见事物预测的精度,金融业务场景就是使用这个特征来提高对用户风险的识别能力。  


特征工程是整个数据挖掘模型里最耗时也最重要的一步,它为金融业务全流程的风控提供了核心的数据支撑,主要分为三个部分:  


首先是特征挖掘,主要由风控策略和模型开发的团队来完成,他们会根据业务指标进行数据的分析处理,然后再提取出有效的合规的特征;


当特征挖掘出来之后会给到开发团队,特征开发团队根据这个特征的来源会对接不同的数据源,有些是来自三方的,有些是离线加工出来的,还有实时加工的,当然还有一些机器学习模型进行再次加工计算出来的特征;


开发好的特征会通过特征中台提供给线上的业务使用,同时也要保障整个特征链路的稳定性。


image.png


特征工程目前使用的 Flink 实时任务有一百个以上,产生了一万个以上的特征数量,每天会有 3000 万以上的特征调用。


image.png


金融风控特征的核心指标,最重要的是合规。所有的特征都是居于合规之上,之外还需要保证特征加工的准确性、特征数字的实时性、特征计算的快速响应,还有整个平台运行的高可用和稳定性。基于这样的指标要求,我们采用了 Flink 作为实时计算引擎,使用 HBase 和阿里云的 TableStore 作为高性能的存储引擎,然后通过微服务化的架构实现整体的服务化和平台化。


image.png


特征平台的架构图总体可以分为 5 大部分:  


上游系统有前台系统、决策系统和保护系统;


业务方所有的请求都会经过特征网关,特征网关会根据特征的源数据进行链路编排,有些要调用三方数据,人行征信数据,还有一些来自数据集市的数据;


数据接入之后就会进入特征数据的加工层,里面有对三方数据的特征加工服务,也有对金融实时特征数据的计算;还有一些反欺诈的特征计算服务,其中包含关系图谱以及一些名单特征的服务;


有些基础的特征通过这一层加工之后,就可以提供给上游的业务系统使用了,还有一些需要经过特征组合服务进行再次加工。众安保险通过一个低代码编辑器来实现特征的组合服务和风控模型服务,通过机器学习平台来进行特征的重新加工;


基础服务层主要是做特征的后台管理和实时监控。实时特征需要依赖实时计算平台,离线特征依赖离线调度平台。  


总结来说,特征平台是以微服务化构建的一个特征服务体系,通过接入三方数据、征信数据、内部数据、实时数据、离线数据进行特征加工和服务,组合成的一套特征计算的风控数据产品。



《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink  在 众安保险金融业务的应用(4) https://developer.aliyun.com/article/1228197

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
163 1
|
29天前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
588 13
Apache Flink 2.0-preview released
|
1月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
67 3
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
机器学习【金融风险与风口评估及其应用】
机器学习【金融风险与风口评估及其应用】
77 6
|
1月前
|
机器学习/深度学习 算法 搜索推荐
机器学习及其应用领域【金融领域】
机器学习及其应用领域【金融领域】
43 5
|
1月前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
56 1
|
1月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
114 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多