机器学习帮助您挖掘金融欺诈用户

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 通过最佳实践帮助您实现上述案例效果 Step1:数据导入MaxCompute 1.1 创建需要上传的本地数据 人员管理表: ign="top"> 字段名 含义 类型 描述 start_point 边的起始节点 s

通过最佳实践帮助您实现上述案例效果

Step1:数据导入MaxCompute

1.1 创建需要上传的本地数据

人员管理表:

字段名 含义 类型 描述
start_point 边的起始节点 string
end_point 边的结束节点 string
count 关系紧密度 double 数值越大,两人的关系越紧密

源数据:person

已知数据表:

字段名 含义 类型 描述
point 用户名 string
point_type 用户类型 string 类型
weight 信用指数 double 指数

源数据:point

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。

<a href=https://img.alicdn.com/tps/TB1TxkNOVXXXXaUaXXXXXXXXXXX-1124-472.png" width="836">

<a href=https://img.alicdn.com/tps/TB1qRw3OVXXXXX_XFXXXXXXXXXX-1243-351.png" width="836">

<a href=https://img.alicdn.com/tps/TB1gvgQOVXXXXXUXVXXXXXXXXXX-1208-337.png" width="836">

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击”管理控制台“。

<a href=http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/49126/cn_zh/1487754370705/a1.png" width="836">

步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:

a2.png

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面:

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区

TB1rvM2OVXXXXbBXFXXXXXXXXXX-1092-301.png

1.2.3 创建表

点击菜单数据管理,右上新建表

TB1cY7xOVXXXXXTaFXXXXXXXXXX-1280-310.png

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项,点击下一步

TB1j_A6OVXXXXcIXpXXXXXXXXXX-831-499.png

在新建表页面中填写字段和分区信息的各配置项

TB1Nds0OVXXXXb_XFXXXXXXXXXX-830-538.png

1.2.5 点击提交

新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据

TB1SSwFOVXXXXX9apXXXXXXXXXX-800-662.png

选择目标表,并选择字段匹配方式,点击导入

TB1x0w3OVXXXXXRXFXXXXXXXXXX-798-408.png

文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据

TB1lEEOOVXXXXadaXXXXXXXXXXX-416-473.png

同样方法创建已知数据表

注意:如果原始字符集设GBK中文出现乱码,可改为UTF-8

Step2:机器学习中的数据准备

进入机器学习管理控制台,点击对应项目的进入机器学习

a3.png

选择需要的租户及工作空间,点击“提交”

1

进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述
TB16T.UOVXXXXXsXVXXXXXXXXXX-351-249.png

TB1xLo_OVXXXXaQXpXXXXXXXXXX-401-384.png

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

TB1zgRdPXXXXXbPXXXXXXXXXXXX-915-279.png

TB1XpgYOVXXXXcmXFXXXXXXXXXX-1272-301.png

切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布

TB1RVoYOVXXXXcCXFXXXXXXXXXX-281-214.png

右击读数据表,点击从此处开始执行,执行完毕后点击查看数据

TB14_wEOVXXXXaQapXXXXXXXXXX-504-460.png

Step3:数据探索流程

实验流程图:

TB1XD.HOVXXXXcfaXXXXXXXXXXX-751-601.png

3.1 最大联通子图

在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的;若在图G中存在若干子图,其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,那么称图G的这些子图为最大联通子图。图算法的输入数据是关系图谱结构的。最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与风控场景无关的人。本次实验通过“最大联通子图”组件将数据中的群体分为两部分,并赋予group_id。

切换至组件栏,向画布中拖入网络分析-->最大联通子图,点击最大联通子图,在右侧字段设置中进行填写

TB1DzQHOVXXXXaoapXXXXXXXXXX-1219-230.png

右击最大联通子图点击执行后,查看数据

TB1BzRpPXXXXXaFXpXXXXXXXXXX-319-342.png

3.2 SQL脚本

向画布中拖入工具-->SQL脚本,点击SQL脚本,在右侧写SQL语句

select node1 from ${t1} where grp_id='Noah';

TB1hXldPXXXXXbMXXXXXXXXXXXX-1204-405.png

右击SQL脚本点击执行后,查看数据

TB1uJk_OVXXXXa4XVXXXXXXXXXX-287-334.png

3.3 JOIN

向画布中拖入数据预处理-->数据合并-->JOIN,分别与SQL脚本和人员数据表连接,点击JOIN,在右侧进行字段设置

注意:要将odps源的输出和SQL脚本的输出分别与JOIN组件进行关联

TB1ZqAzOVXXXXXiapXXXXXXXXXX-935-301.png

TB1nlkVOVXXXXc5XFXXXXXXXXXX-941-320.png

右击JOIN点击执行后,查看数据

TB1jt0CPXXXXXXjXXXXXXXXXXXX-412-389.png

3.4 单源最短路径

通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等。distance讲的是“Enoch”通过几个人可以联络到目标人。

向画布中拖入网络分析-->单源最短路径,将关联节点输出到单源最短路径,点击单源最短路径,在右侧进行设置

TB1yxMuOVXXXXb_apXXXXXXXXXX-288-260.png

TB1yxE_OVXXXXbfXpXXXXXXXXXX-285-119.png

TB11CRXPXXXXXcOXXXXXXXXXXXX-276-187.png

右击单源最短路径点击执行,查看数据

TB1X30dPXXXXXb3XXXXXXXXXXXX-745-388.png

3.5 标签传播分类

“标签传播分类”算法为半监督的分类算法,原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点。

向画布中拖入网络分析-->标签传播分类,将关联节点输入边表,已知数据输入顶点表,点击标签传播分类,在右侧进行设置

TB19rUTOVXXXXbSXVXXXXXXXXXX-287-469.png

TB1Gm0gPXXXXXbfXXXXXXXXXXXX-276-255.png

TB1XX.WOVXXXXaaXVXXXXXXXXXX-277-187.png

右击标签传播分类点击执行,查看数据

TB1RQ3.OVXXXXauXpXXXXXXXXXX-915-545.png

3.6 导入打标数据

调用“标签传播分类”组件除了要有所有人员的通联图数据以外,还要有人员打标数据。这里通过“已知数据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率):

TB1hAkJOVXXXXa0aXXXXXXXXXXX-692-137.png

3.7 SQL脚本

通过SQL对结果进行筛选,最终结果展现的是每个人涉嫌欺诈的概率,数值越大表示是欺诈用户的概率越大

向画布中拖入工具-->SQL脚本,将标签传播分类的输出表连接到SQL脚本,点击SQL脚本,在右侧写SQL语句:

select * from ${t1} where tag='欺诈用户';

TB1cNVhPXXXXXaJXXXXXXXXXXXX-531-388.png

右击SQL脚本点击执行,查看数据

TB12TxhPXXXXXX1XXXXXXXXXXXX-713-299.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在金融风控中的应用
【7月更文挑战第31天】随着科技的飞速发展,机器学习技术已广泛应用于各行各业,尤其在金融风控领域展现出巨大潜力。本文将深入探讨机器学习如何革新传统的金融风险评估模型,通过案例分析展示其在实际应用中的效果,并讨论面临的挑战与未来发展方向。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在金融欺诈检测中的应用
【8月更文挑战第30天】 随着金融科技的迅猛发展,机器学习技术在保障交易安全和打击金融欺诈中扮演着越来越重要的角色。本文将深入探讨机器学习模型在识别和预防金融欺诈方面的应用,并分析其优势与面临的挑战。通过对比传统方法,我们突出了机器学习在处理大数据、提高检测速度和精度方面的独特价值。同时,文中还将介绍几种常用的算法和模型,以及它们在实际场景中的运用情况。最后,本文提出了未来发展趋势和需要解决的关键问题。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
机器学习在金融领域的应用及其挑战
【8月更文挑战第18天】本文将探讨机器学习技术在金融行业中的运用,以及在实际应用过程中遇到的挑战和问题。我们将从算法选择、数据处理、模型解释性及伦理法规四个方面进行详细讨论,并给出相应的解决建议。
49 1
|
2月前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融风控中的应用与挑战
【8月更文挑战第10天】随着金融科技的迅速发展,机器学习技术被广泛应用于金融服务领域,尤其是风险控制。本文深入探讨了机器学习在金融风控中的角色,分析了其在信用评分、欺诈检测等方面的应用,并指出了实施过程中面临的数据质量、模型解释性、法规遵从等挑战。文章旨在为金融机构提供机器学习应用的参考框架和应对策略,以增强风险管理能力。
45 7
|
2月前
|
机器学习/深度学习 SQL 数据采集
"解锁机器学习数据预处理新姿势!SQL,你的数据金矿挖掘神器,从清洗到转换,再到特征工程,一网打尽,让数据纯净如金,模型性能飙升!"
【8月更文挑战第31天】在机器学习项目中,数据质量至关重要,而SQL作为数据预处理的强大工具,助力数据科学家高效清洗、转换和分析数据。通过去除重复记录、处理缺失值和异常值,SQL确保数据纯净;利用数据类型转换和字符串操作,SQL重塑数据结构;通过复杂查询生成新特征,SQL提升模型性能。掌握SQL,就如同拥有了开启数据金矿的钥匙,为机器学习项目奠定坚实基础。
27 0
|
2月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习在金融领域的革命性应用
本文深入探讨了机器学习技术在金融行业的广泛应用,并分析了其对金融市场的深远影响。从算法交易到信用风险评估,再到智能客户服务,机器学习技术正在重塑金融服务的方方面面。文章通过具体案例展示了机器学习如何提高效率、降低成本并增强客户体验,同时也讨论了实施这些技术时所面临的挑战和未来的发展趋势。
|
3月前
|
机器学习/深度学习 数据采集 监控
探索机器学习在金融风控中的应用与挑战
【7月更文挑战第30天】本文深入探讨了机器学习技术在金融风险控制领域的应用现状和面临的挑战。通过分析机器学习模型如何辅助金融机构进行信用评估、欺诈检测和市场风险预测,揭示了其在提高风险管理效率方面的巨大潜力。同时,文章也指出了数据质量、模型可解释性、监管合规等关键挑战,并提出了相应的解决建议。
|
2月前
|
机器学习/深度学习 算法
探索机器学习在金融领域的应用
本文深入探讨了机器学习技术在金融行业中的应用,并分析了这些技术如何改变传统金融服务的面貌。通过具体案例分析,文章揭示了机器学习在风险管理、欺诈检测、算法交易等方面的实际效益,同时指出了实施过程中可能遇到的挑战和限制因素。最后,提出了一系列针对性的建议,旨在帮助金融机构更有效地利用机器学习技术,以实现业务创新和增长。
|
3月前
|
机器学习/深度学习 运维 算法
探索机器学习在金融风控中的应用
随着金融科技的迅猛发展,机器学习技术已成为金融风控领域的重要工具。本文将深入探讨机器学习如何助力金融机构提升风险管理效率和精准度,包括信用评分模型的创新、欺诈检测的智能化以及市场风险预测的精确化。通过具体案例分析,我们将展示机器学习在实际应用中的表现及其对传统金融风控模式的颠覆性影响。
|
3月前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融领域的应用及其挑战
本文深入探讨了机器学习技术在金融领域的广泛应用,包括风险评估、算法交易和客户服务优化等方面。文章首先概述了机器学习的基本概念和主要技术,随后分析了其在金融领域中的应用实例和带来的显著优势。接着,讨论了实施机器学习过程中面临的主要挑战,如数据质量、模型解释性和监管合规性问题。最后,提出了一系列应对策略,旨在帮助金融机构有效利用机器学习技术,同时规避潜在风险。通过实证分析和案例研究,本文旨在为金融从业者提供实用的指导和见解,促进机器学习技术在金融领域的健康发展。
下一篇
无影云桌面