说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于网络入侵检测、信用卡欺诈侦查等领域。局部离群因子(简称LOF)算法是一种具有较好检测效果和适用性的基于密度的异常点检测算法。
近年来,随着我国资本市场开放程度的进一步提升,国外金融机构的介入,国内整体的信用状况不断改善,银行卡市场的多元化主体构成的产业链已经日臻成熟,我国信用卡产业上升到一个新的阶段,得到了飞速发展。但是信用卡的高增长速度也伴随着一系列的问题,对个人来说,信用卡的使用给我们带来很大的便利,但使用稍有不当就会产生风险,造成一定的经济损失。对于发卡银行,由于市场竞争比较激烈,发卡行为了实现利益最大化,它们往往低估信用卡风险,随意降低发卡对象和信用卡发放审核的标准,使得我国信用卡客户的总体质量降低很多,这样信用卡业务的欺诈风险不断增加,而我国的信用体系还没有建立和发挥作用。虽然信用卡交易中的欺诈行为在整个交易中所占比例很小,但是欺诈行为一旦发生,给银行造成的损失也是非常巨大的。因此有效识别信用卡欺诈风险,对信用卡数据集进行欺诈检测、对信用卡风险进行有效管理和控制,是我国各信用卡发卡行和信用卡产业管理层共同面临、迫切需要解决的问题。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
编号 |
变量名称 |
描述 |
1 |
Time |
|
2 |
V1 |
|
3 |
V2 |
|
4 |
V3 |
|
5 |
V4 |
|
6 |
V5 |
|
7 |
V6 |
|
8 |
V7 |
|
9 |
V8 |
|
…… |
||
81 |
Class |
目标变量 |
数据详情如下(部分展示):
3.数据预处理
3.1 用Pandas工具查看数据项
使用Pandas工具的columns查看数据项名称:
关键代码:
3.2查看数据集的形状
使用Pandas工具的shape查看数据集的形状:
关键代码:
4.探索性数据分析
4.1绘制数据项直方图
由于数据项比较多,为了更加清晰地进行展示,分4个直方图来画,如下图所示:
通过上图可以看出,大多数特征都聚集在0值附近,说明信用卡欺诈还是比较少的。
4.2计算欺诈案例的数量以及欺诈率
结果如下:
欺诈率:
计算欺诈数量和正常的数量:
关键代码如下:
4.3相关性分析
由于数据项比较多,相关性分析分为3个图进行展示,如下图所示:
通过上图可以看出,各个特征之间的相关性比较低,即各个特征相对独立。
关键代码如下:
5.特征工程
5.1 建立特征数据和标签数据
Class为标签数据,除Class之外的为特征数据。关键代码如下:
5.2查看特征和标签的形状
结果如下图:
关键代码如下:
6.构建LOF模型
主要使用sklearn工具的LocalOutlierFactor()方法构建局部离群因子模型,用于目标异常数据检测。
6.1建模
编号 |
模型名称 |
参数 |
1 |
LOF检测模型 |
n_neighbors=20 |
2 |
contamination=outlier_fraction |
关键代码如下:
7.模型评估
7.1评估指标及结果
评估指标主要包括准确率、查准率、查全率、F1分值等等。
模型名称 |
指标名称 |
指标值 |
验证集 |
||
LOF异常检测模型 |
准确率 |
0.9952 |
查准率 |
0.0765 |
|
查全率 |
0.0769 |
|
F1 |
0.0767 |
从上表可以看出,准确率将近100%,而F1分值0.0767,说明数据集类型分布不均匀导致,但是不影响本次项目的应用。
关键代码如下:
7.2 分类报告
分类报告如下图所示:
从上图可以看到,类别为0的F1值为1,分类为1的F1值为0.08,准确率100%;出现这个低F1值的原因为数据集类别分布极度不均匀,但是这并不太影响本次项目的应用。
7.3 绘制ROC曲线
ROC曲线,如下图所示:
通过上图可以看到,AUC的值为0.78,说明模型效果良好。
8.结论与展望
综上所述,使用了局部离群因子LOF算法对信用卡数据进行异常检测。实验结果表明,该算法可以有效检测出信用卡数据中存在的异常数据。可用于日常生活中进行建模预测,以提高生产价值和效能。
# 本次机器学习项目实战所需的资料,项目资源如下: # 项目说明: # 获取方式一: # 项目实战合集导航: https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2 # 获取方式二: 链接:https://pan.baidu.com/s/1zLe4VsP1gIh-WLTa7K3BIQ 提取码:cjat