机器学习算法-聚类(一、性能度量和距离计算)

简介: 机器学习算法-聚类(一、性能度量和距离计算)

最近正式进入到机器学习的理论学习中啦,准备写一些笔记来加深我对机器学习算法的理解~

所谓聚类在我的理解中是:

数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇:

5deaf8f5088ee58d72ba2cf1f1f9ef06_SouthEast.png

它可用于寻找数据内在的分布结构,也可作为其它学习任务的前驱过程,来提炼数据

以下是聚类算法涉及的两个基本问题:

性能度量和距离计算:

聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度底

此时需要性能度量: 一般分两类:

一、使用外部指标:

将聚类结果与某个参考模型作比较     

给定参考簇划分C*,对数据集D,通过聚类得到的簇划分为C

λ 与 λ∗分别表示C和C*对应的簇标记向量。

91466e5cf455d7a9b00b06e80a2b1aea_SouthEast.png

通过C和C*的比较,得出相应的参数,再使用公式进行性能度量

二、使用内部指标:

直接对聚类结果进行分析,不进行参考

5a9b9d95a3f52e745a4d2553077fd500_SouthEast.png

主要是利用样本点之间的距离来进行度量

DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小,显然,内部是越小越好,样本簇之间是越大越好

Dunn则是比较样本簇之间最小距离和样本簇之间最大距离,主要是样本簇之间进行比较显然,样本簇之间最小距离越大,最大距离越小说明样本簇内部聚合度越高,样本簇之间的距离越远

距离计算,应该是聚类的核心之一,距离的计算基本上是样本点与样本点之间距离的计算,通过利用得到的距离,可以判断该点的大致类别

3b1fc35359b5d63f8caf10541f1429bb_SouthEast.png

这用来计算样本点中的有序属性比较方便;

但现实生活中还有(交通工具:火车,汽车,飞机)这样的无序属性,此时采用VDM距离:

令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:

e0ecab162a9e276decaf2d80c8dffbab_SouthEast.png

无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”

在不少现实任务中,我们需要基于数据样本来确定合适的距离计算式,如果有兴趣可以学习 “距离度量学”


最后盖个章~

Shiloh的读书笔记~


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
21天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
13天前
|
机器学习/深度学习 自然语言处理 算法
|
1天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
27 12
|
29天前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据处理到算法优化
【2月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是实现智能决策和预测的关键。本文将深入探讨如何通过有效的数据处理策略、合理的特征工程、选择适宜的学习算法以及进行细致的参数调优来提升模型性能。我们将剖析标准化与归一化的差异,探索主成分分析(PCA)的降维魔力,讨论支持向量机(SVM)和随机森林等算法的适用场景,并最终通过网格搜索(GridSearchCV)来实现参数的最优化。本文旨在为读者提供一条清晰的路径,以应对机器学习项目中的挑战,从而在实际应用中取得更精准的预测结果和更强的泛化能力。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
56 0
|
1月前
|
机器学习/深度学习 存储 算法
【机器学习】包裹式特征选择之基于遗传算法的特征选择
【机器学习】包裹式特征选择之基于遗传算法的特征选择
54 0
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
27 1
|
1月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
109 0

热门文章

最新文章