Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

孤立森林是基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。孤立森林算法适用于连续数据的异常检测,将异常定义为“容易被孤立的离群点”,可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。

孤立森林最早来源于2008年发表的一篇论文《Isolation Forest》,该论文由莫纳什大学的 Fei Tony Liu、Kai Ming Ting 和南京大学的周志华合作完成的。孤立森林算法的思想是通过不断地分割数据集,从而把异常点给孤立出来。分割数据集的依据是反复随机选取样本特征,不断地分割数据集直到每个样本点都是孤立的。在此情况下,异常点因为具有不同或者特殊的特征值,因此异常点的路径通常很短,也会比较早被分离出来。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

数据组成:训练数据1460条、81个特征(38个数值特征和43个分类特征)

编号 

变量名称

描述

1

Id

 

2

MSSubClass

 

3

MSZoning

 

4

LotFrontage

 

5

LotArea

 

6

Street

 

7

Alley

 

8

LotShape

 

9

LandContour

 

……

81

SalePrice

目标变量

数据详情如下(部分展示):

image.png

3.数据预处理

3.1 用Pandas工具查看数据形状

使用Pandas工具的shape ()方法查看数据的形状:

image.png

关键代码:

image.png

image.png

3.2缺失值数据填充

使用Pandas工具的fillna ()方法用0填充缺失的数据,关键代码:

image.png

3.3生产数据集的特征列表

使用Pandas工具的columns属性来生成数据集的特征列表:

image.png

关键代码:

image.png

4.异常数据检测

使用sklearn工具中的IsolationForest(算法)来进行数据集中异常数据的检测。

4.1建模

模型参数如下:

编号

模型名称

参数

1

IsolationForest异常检测模型

max_samples=100

2

random_state=42

4.2拟合与预测

应用fit()方法进行拟合,应用predict()进行预测,预测值分为1和-1,1为正常值,-1为异常值,那么在后续的深度神经网络模型应用中将会丢弃掉异常值的数据。检测结果如下:

image.png

关键代码如下:

image.png

4.3正常值结果展示

使用Pandas工具的head()方法来展示正常值数据的前10行:

image.png

关键代码如下:

image.png

5.特征工程

5.1数据归一化

使用sklearn工具MinMaxScaler()方法来进行数据的无量纲化,即数据的归一化,归一化后的数据如下图:

image.png

关键代码:

image.png

5.2 建立特征数据和标签数据

SalePrice为标签数据,除SalePrice之外的为特征数据。关键代码如下:

image.png

5.3数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

image.png

6.构建深度神经网络模型

主要使用Keras工具的Sequential()方法构建序惯模型,然后添加Dense层,用于目标回归。

6.1建模

 

编号

模型名称

参数

1

深度神经网络模型

输入层

kernel_initializer='normal'

2

activation='relu'

3

隐藏层

kernel_initializer='normal'

4

activation='relu'

5

输出层

activation='relu'

6

loss='mean_squared_error'

7

optimizer='adam'

关键代码如下:

image.png

7.模型评估

7.1评估指标及结果 

评估指标主要包括均方误差等等。

模型名称

指标名称

指标值

验证集

深度神经网络模型

损失值

0.00043

从上表可以看出,损失值较小,深度神经网络模型效果较好。

关键代码如下: 

image.png

7.3 真实值与预测值比对图

image.png

从上图可以看到,真实值和预测值波动基本一致,说明除去异常值之后的深度神经网络模型效果较好。

8.结论与展望

综上所述,使用了孤立森林算法对房价数据进行异常检测。实验结果表明,该算法可以有效检测出房价数据中存在的异常数据。然后把异常数据去除,来构建深度神经网络模型,模型效果较好。可用于日常生活中进行建模预测,以提高生产价值和效能。

测试集数据预测结果如下:

image.png


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1TD-YlshnVciz10gPVvhGiw 
提取码:smew
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8天前
|
算法 数据挖掘 Python
Python中的拟合技术:揭示数据背后的模式
Python中的拟合技术:揭示数据背后的模式
18 0
Python中的拟合技术:揭示数据背后的模式
|
7天前
|
数据挖掘 索引 Python
Python数据挖掘编程基础3
字典在数学上是一个映射,类似列表但使用自定义键而非数字索引,键在整个字典中必须唯一。可以通过直接赋值、`dict`函数或`dict.fromkeys`创建字典,并通过键访问元素。集合是一种不重复且无序的数据结构,可通过花括号或`set`函数创建,支持并集、交集、差集和对称差集等运算。
15 9
|
4天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
15 3
|
8天前
|
数据挖掘 Python 容器
Python数据挖掘编程基础
Python包含四种内置数据结构:列表(List)、元组(Tuple)、字典(Dictionary)和集合(Set),统称为容器。列表与元组均为序列结构,前者使用方括号表示且可修改,后者用圆括号表示且不可修改。列表支持多种方法和列表解析功能,以简化元素操作。例如,通过列表解析可以简洁地实现`d=[i+1 for i in c]`,输出结果为`[2,3,4]`。
22 7
|
7天前
|
Python
Python量化炒股的数据信息获取—获取沪深股市每日成交概况信息
Python量化炒股的数据信息获取—获取沪深股市每日成交概况信息
21 5
|
6天前
|
存储 索引 Python
python中的数据容器
python中的数据容器
|
7天前
|
Python
Python量化炒股的数据信息获取—获取上市公司分红送股数据信息
Python量化炒股的数据信息获取—获取上市公司分红送股数据信息
19 3
|
8天前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
24 3
|
7天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护
17 1
|
8天前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
20 1
下一篇
无影云桌面