【玩转数据系列三】利用图算法实现金融行业风控

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/T4/G6 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core、最大联通子图、标签传播聚类等。
+关注继续查看

(本文数据为虚构,仅供实验)

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

一、背景

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core、最大联通子图、标签传播聚类等。
本文的业务场景如下:
下图是已知的一份人物通联关系图,每两个人之间的连线表示两人有一定关系,可以是同事关系或者亲人关系等。已知“Enoch”是信用用户,"Evan"是欺诈用户,计算出其它人的信用指数。通过图算法,可以算出图中每个人是欺诈用户的概率,这个数据可以方便相关机构做风控。

二、数据集介绍

数据源:本文数据为自己生成,用于实验。
具体字段如下:

字段名 含义 类型 描述
start_point 边的起始节点 string
end_point 边结束节点 string
count 关系紧密度 double 数值越大,两人的关系越紧密

数据截图:

三、数据探索流程

首先,实验流程图:

1.最大联通子图

最大联通子图的功能很好理解,前面已经介绍了,图算法的输入数据是关系图谱结构的。最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与风控场景无关的人。本次实验通过“最大联通子图”组件将数据中的群体分为两部分,并赋予group_id。通过“SQL脚本”组件和“JOIN”组件去除下图中的无关联人员。

2.单源最短路径

通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等。distance讲的是“Enoch”通过几个人可以联络到目标人。
如下图:

3.标签传播分类

“标签传播分类”算法为半监督的分类算法,原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点。
调用“标签传播分类”组件除了要有所有人员的通联图数据以外,还要有人员打标数据。这里通过“已知数据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率):

通过SQL对结果进行筛选,最终结果展现的是每个人涉嫌欺诈的概率,数值越大表示是欺诈用户的概率越大。

四、其它

作者微信公众号(与作者讨论):

参与讨论:云栖社区公众号

免费体验:阿里云数加机器学习平台

相关实践学习
PAI-EAS快速部署AI绘画Stable Diffusion WebUI
在本教程中,您将学习如何使用阿里云模型在线服务(PAI-EAS)的预置镜像,快速部署AIGC Stable Diffusion SDWebUI绘画的AI-Web应用,以及启动WebUI进行模型推理。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
5月前
|
SQL 机器学习/深度学习 人工智能
星熠案例:基于“隐语”多方安全分析的智能化理赔
星熠案例:基于“隐语”多方安全分析的智能化理赔
106 0
星熠案例:基于“隐语”多方安全分析的智能化理赔
|
5月前
|
机器学习/深度学习 存储 运维
对抗升级|图数据库在金融风控中的 5 大典型应用
本文介绍了图数据库在实时风控中的几大经典场景和优势。
对抗升级|图数据库在金融风控中的 5 大典型应用
|
6月前
|
存储 机器学习/深度学习 分布式计算
当金融风控遇上人工智能,众安金融的实时特征平台实践
随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
168 0
当金融风控遇上人工智能,众安金融的实时特征平台实践
|
11月前
|
存储 SQL 消息中间件
中原银行对金融行业实时数仓的现状与发展趋势思考
本文内容介绍了银行业常见的实时场景和解决方案,然后针对银行业报表依赖维度表计算的特点,提出了基于 Flink Table Store 作为数据存储,进而构建流式数仓的解决方案。
中原银行对金融行业实时数仓的现状与发展趋势思考
|
数据挖掘
金融行业数据分析
本文研究全球及中国市场金融行业数据分析现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美、欧洲、中国、日本、东南亚和印度等地区的现状及未来发展趋势
|
机器学习/深度学习 数据采集 SQL
关于互联网金融授信产品的风控建模
关于互联网金融授信产品的风控建模
关于互联网金融授信产品的风控建模
|
新零售 数据采集 SQL
如何让数据价值最大化?阿里全域大数据系统深度解读
阿里巴巴目前生态建设包括了核心的电商业务,淘宝、天猫、聚划算等,同时还有文娱板块的优酷、土豆、UC浏览器等,当然还有本地化服务比如口碑、饿了么等。基于业态背后还有蚂蚁、菜鸟、阿里妈妈、阿里云等等。
4416 0
相关产品
人工智能平台 PAI
推荐文章
更多