机器学习算法-聚类(一、性能度量和距离计算)

简介: 机器学习算法-聚类(一、性能度量和距离计算)

最近正式进入到机器学习的理论学习中啦,准备写一些笔记来加深我对机器学习算法的理解~

所谓聚类在我的理解中是:

数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇:

5deaf8f5088ee58d72ba2cf1f1f9ef06_SouthEast.png

它可用于寻找数据内在的分布结构,也可作为其它学习任务的前驱过程,来提炼数据

以下是聚类算法涉及的两个基本问题:

性能度量和距离计算:

聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度底

此时需要性能度量: 一般分两类:

一、使用外部指标:

将聚类结果与某个参考模型作比较     

给定参考簇划分C*,对数据集D,通过聚类得到的簇划分为C

λ 与 λ∗分别表示C和C*对应的簇标记向量。

91466e5cf455d7a9b00b06e80a2b1aea_SouthEast.png

通过C和C*的比较,得出相应的参数,再使用公式进行性能度量

二、使用内部指标:

直接对聚类结果进行分析,不进行参考

5a9b9d95a3f52e745a4d2553077fd500_SouthEast.png

主要是利用样本点之间的距离来进行度量

DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小,显然,内部是越小越好,样本簇之间是越大越好

Dunn则是比较样本簇之间最小距离和样本簇之间最大距离,主要是样本簇之间进行比较显然,样本簇之间最小距离越大,最大距离越小说明样本簇内部聚合度越高,样本簇之间的距离越远

距离计算,应该是聚类的核心之一,距离的计算基本上是样本点与样本点之间距离的计算,通过利用得到的距离,可以判断该点的大致类别

3b1fc35359b5d63f8caf10541f1429bb_SouthEast.png

这用来计算样本点中的有序属性比较方便;

但现实生活中还有(交通工具:火车,汽车,飞机)这样的无序属性,此时采用VDM距离:

令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:

e0ecab162a9e276decaf2d80c8dffbab_SouthEast.png

无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”

在不少现实任务中,我们需要基于数据样本来确定合适的距离计算式,如果有兴趣可以学习 “距离度量学”


最后盖个章~

Shiloh的读书笔记~


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
7月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
2月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
2月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
217 4
|
2月前
|
机器学习/深度学习 算法 数据可视化
基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真
本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。
|
3月前
|
算法 数据挖掘 异构计算
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
226 0
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
|
3月前
|
算法 数据挖掘 定位技术
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
|
3月前
|
机器学习/深度学习 分布式计算 算法
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
188 0
|
3月前
|
机器学习/深度学习 数据采集 算法
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
108 0
|
4月前
|
人工智能 算法 安全
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
146 0
|
4月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
183 0

热门文章

最新文章