基于关系的违规团伙发掘风控方案

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 目前很多平台方都有团伙作案的情况发生,比如团伙性薅羊毛,比如团伙性的制造一些虚假信息,团伙性发送违法广告。之所以是团伙性作案,因为作案人员之间有某种关系连接。当业务方获取了人员关系之后,能否成功挖掘出违规团伙,关系到平台的安全。

业务背景

目前很多平台方都有团伙作案的情况发生,比如团伙性薅羊毛,比如团伙性的制造一些虚假信息,团伙性发送违法广告。之所以是团伙性作案,因为作案人员之间有某种关系连接。当业务方获取了人员关系之后,能否成功挖掘出违规团伙,关系到平台的安全。

业务痛点

绝大部分客户可以通过SNS留言、转账、通话等数据构建出用户关系网络,并且可以甄别出网络中部分违规客户,缺乏有效的智能化的方案对全网所有客户进行是否违规的判断。

解决方案

PAI平台提供了一套基于关系图挖掘的的算法,包含标签传播、最大联通子图等经典图算法

1.人力要求:需要具备基础的图挖掘算法背景、懂得关系型数据的构建模式

2.开发周期:1-2天

3.数据要求:可以将数据构建成点边点的模式,点指的是每个用户,边指的是某种关系(关系可以是通话、转账、留言等等)

数据说明

下图是已知的一份人物通联关系图,每两个人之间的连线表示两人有一定关系,可以是同事或者亲人关系等。已知“Enoch”是信用用户,“Evan”是欺诈用户。需要通过图算法,计算出其它人的信用指数,即得到图中每个人是欺诈用户的概率。这个数据可以方便相关机构做风控。

)

上图对应的数据集如下,上图是个有向图,每个点代表一个人,每个人都是一个start_point,每个start_point都连接一个end_point。count表示start_point和end_point的连线,count值越大说明start_point和end_point这两个人的关系越密切。

特征数据:

参数名称 参数描述
start_point 用户A,每个关系连线的起点
end_point 用户B,每个关系连线的终点
count 用户A和用户B的关系程度

流程说明

进入PAI-Studio产品:https://pai.data.aliyun.com/console

该方案数据和实验环境已经内置于首页模板:

打开实验:

1. 最大联通子图

最大联通子图的功能:图算法的输入数据是关系图谱结构的,最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与风控场景无关的人。
本次实验通过最大联通子图组件将数据中的群体分为两部分,并赋予group_id。通过SQL脚本组件和JOIN组件去除下图中的无关联人员。

2. 单源最短路径

通过单源最短路径组件探查出每个人的一度人脉、二度人脉等关系。“distance”表示“Enoch”通过几个人可以联络到目标人,如下图所示:

3. 标签传播分类

标签传播分类算法为半监督的分类算法,原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点。
使用标签传播分类组件除了需要所有人员的通联图数据以外,还要有人员打标数据。本实验通过已知数据(读数据表)组件导入打标数据(“weight”表示目标是欺诈用户的概率),如下图所示:

4. 结论

通过SQL脚本组件对结果进行筛选,最终展现的是每个人涉嫌欺诈的概率,数值越大表示是欺诈用户的概率越大,如下图所示:

总结

通过PAI-Studio内置的基于关系的违规团伙发掘方案可以基于用户的关系网络自动识别出全网每个用户的风险值,做到违规团伙智能化挖掘的作用,常被应用到金融、社交、电信等行业。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
什么是三极管?
一、什么是三极管 三极管(Transistor)是一种电子器件,由三个控制电极组成,分别是基极(Base)、发射极(Emitter)和集电极(Collector)。它是一种半导体器件,常用于放大、开关和稳压等电路中。 三极管可以根据其结构和材料分为两种类型:NPN型和PNP型。NPN型三极管的基极为P型材料,发射极为N型材料,集电极为P型材料;PNP型三极管的基极为N型材料,发射极为P型材料,集电极为N型材料。 三极管的工作原理是通过控制基极电流来控制发射极和集电极之间的电流。当基极电流较小时,三极管处于截止状态,发射极和集电极之间几乎没有电流流动;当基极电流逐渐增大时,三极管进入饱和状态,发
696 0
|
机器学习/深度学习 编解码 人工智能
人脸表情[七种表情]数据集(15500张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含15,500张已划分、已标注的人脸表情图像,覆盖惊讶、恐惧、厌恶、高兴、悲伤、愤怒和中性七类表情,适用于YOLO系列等深度学习模型的分类与检测任务。数据集结构清晰,分为训练集与测试集,支持多种标注格式转换,适用于人机交互、心理健康、驾驶监测等多个领域。
|
5月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
11月前
|
存储 算法 API
GraphScope 的图计算之旅
GraphScope的图计算之旅由阿里巴巴通义实验室系统研发总监徐静波分享,涵盖三个发展阶段。早期方案针对特定任务设计了多个图计算系统;2018年起整合为一站式系统GraphScope,支持图遍历、图分析和图学习;2024年演进至GraphScope Flex,采用模块化设计应对多样化的图计算需求。GraphScope持续优化性能并建设开源社区,现已支持3000多个star和100多种算法,日均处理五万多个图计算任务。未来将探索更多查询语言、存储支持及HTAP能力。
711 0
|
设计模式 算法 网络协议
社招offer-腾讯T9-70W年薪(面试经验分享)(上)
社招offer-腾讯T9-70W年薪(面试经验分享)
|
机器学习/深度学习 数据采集 算法
利用未标记数据的半监督学习在模型训练中的效果评估
本文将介绍三种适用于不同类型数据和任务的半监督学习方法。我们还将在一个实际数据集上评估这些方法的性能,并与仅使用标记数据的基准进行比较。
1039 8
|
供应链 安全 Shell
|
机器学习/深度学习 Python
【Python】已解决:ModuleNotFoundError: No module named ‘paddle’
【Python】已解决:ModuleNotFoundError: No module named ‘paddle’
1781 1
|
SQL 关系型数据库 Oracle
sql 截取字符串
原文:sql 截取字符串 MySQL:   1、LOCATE(substr , str ):返回子串 substr 在字符串 str 中第一次出现的位置,如果字符substr在字符串str中不存在,则返回0;   2、POSITION(substr  IN str ):返回子串 substr 在...
4441 0
|
设计模式 存储 分布式计算
[万字长文]知识图谱之本体结构与语义解耦——知识建模看它就够了!
过去两年多的时间,针对蚂蚁域内业务场景和知识体系多样、复杂,知识建模成本高导致图谱项目启动难的问题,我们提出了一种结构与语义解耦的知识建模及schema设计方法,并在商家图谱、事理图谱、保险图谱等多个项目中进行实践。相关简化schema设计及帮助对知识的属性语义化、标准化的能力已经集成到蜘蛛知识平台。本文总结了我们过去所工作,沉淀为体系化的方法论,并针对不同复杂程度的知识建模问题,进行实操指南。
12754 4