Python实现DBSCAN膨胀聚类模型(DBSCAN算法)项目实战

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: Python实现DBSCAN膨胀聚类模型(DBSCAN算法)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,DBSCAN算法将“簇”定义为密度相连的点的最大集合。

DBSCAN算法是密度聚类算法,所谓密度聚类算法就是说这个算法是,根据样本的紧密程度来进行聚类。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

数据详情如下(部分展示):

编号

字段

备注

1

x1

 

2

x2

 

3

x3

 

4

x4

 

5

x5

 

6

x6

 

7

y

 

部分数据展示:

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

从上图可以看到,总共有7个字段。

关键代码:

image.png

3.2缺失值统计

使用Pandas工具的info()方法统计每个特征缺失情况:

image.png

从上图可以看到,数据不存在缺失值,总数据量为1000条。

关键代码:

image.png

3.3变量描述性统计分析

通过Pandas工具的describe()方法来来统计变量的平均值、标准差、最大值、最小值、分位数等信息:

image.png

关键代码如下:

image.png

 

4.探索性数据分析

4.1.绘制散点图

通过Matplotlib工具针对x1 x2两个特征绘制分类散点图,如下图所示:

image.png

4.2 相关性分析

通过Pandas工具的corr()方法和seaborn工具的heatmap()方法绘制相关性热力图:

image.png

从图中可以看到,正数为正相关,负数为负相关,绝对值越大相关性越强。

5.特征工程

5.1 建立特征数据和标签数据

y为标签数据,除y之外的为特征数据。关键代码如下:

image.png

5.2 数据标准化

sklearn包下的StandardScaler函数进行特征数据的标准化,关键代码如下:

image.png

 

6.构建聚类模型

主要使用DBSCAN聚类算法,用于目标聚类分析。 

6.1 建立DBSCAN聚类模型

编号

模型名称

参数

1

DBSCAN聚类模型

eps=0.3

2

min_samples=10

6.2 获取聚类类别数和噪声样本数

image.png

关键代码如下:

image.png

7.模型评估

7.1评估指标及结果 

评估指标主要包括聚类结果同质性、完整性、调和平均值、调整的兰德系数、互信息、轮廓系数等等。

模型名称

指标名称

指标值

数据集

DBSCAN聚类模型

聚类结果同质性

0.975

聚类结果完整性

0.899

同质性和完整性之间的调和平均值

0.936

调整的兰德系数

0.961

调整的互信息

0.935

轮廓系数

0.777

通过上表可以看到,整体的模型效果良好。

 

7.2 聚类结果可视化

image.png

从上图可以看到,聚成了3类,黑色的点代表有噪声的聚类标签样本。

8.结论与展望

综上所述,本项目采用DBSCAN聚类算法进行聚类,最终证明了我们提出的模型效果良好,可用于日常生活中进行建模预测,以提高生产价值。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 

链接:https://pan.baidu.com/s/1TyMNQbTFJMgfjB1IlBHekA 
提取码:81hc
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8天前
|
机器学习/深度学习 数据采集 数据可视化
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
12 6
|
1天前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
1天前
|
机器学习/深度学习 人工智能 算法
【人工智能】线性回归模型:数据结构、算法详解与人工智能应用,附代码实现
线性回归是一种预测性建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系。这种关系可以表示为一个线性方程,其中因变量是自变量的线性组合。
8 2
|
4天前
|
自然语言处理 算法
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
11 0
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
|
7天前
|
JSON 算法 API
京东以图搜图功能API接口调用算法源码python
京东图搜接口是一款强大工具,通过上传图片即可搜索京东平台上的商品。适合电商平台、比价应用及需商品识别服务的场景。使用前需了解接口功能并注册开发者账号获取Key和Secret;准备好图片的Base64编码和AppKey;生成安全签名后,利用HTTP客户端发送POST请求至接口URL;最后解析JSON响应数据以获取商品信息。
|
7天前
|
JavaScript 算法 前端开发
国标哈希算法基础:SHA1、SHA256、SHA512、MD5 和 HMAC,Python和JS实现、加盐、算法魔改
国标哈希算法基础:SHA1、SHA256、SHA512、MD5 和 HMAC,Python和JS实现、加盐、算法魔改
46 1
|
8天前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
10天前
|
数据可视化 算法 数据挖掘
【python】商业数据聚类-回归数据分析可视化(源码+数据)【独一无二】
【python】商业数据聚类-回归数据分析可视化(源码+数据)【独一无二】
|
10天前
|
自然语言处理 数据可视化 数据挖掘
【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】
【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】

热门文章

最新文章