机器学习算法-聚类(一、性能度量和距离计算)

简介: 机器学习算法-聚类(一、性能度量和距离计算)

最近正式进入到机器学习的理论学习中啦,准备写一些笔记来加深我对机器学习算法的理解~

所谓聚类在我的理解中是:

数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇:

5deaf8f5088ee58d72ba2cf1f1f9ef06_SouthEast.png

它可用于寻找数据内在的分布结构,也可作为其它学习任务的前驱过程,来提炼数据

以下是聚类算法涉及的两个基本问题:

性能度量和距离计算:

聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度底

此时需要性能度量: 一般分两类:

一、使用外部指标:

将聚类结果与某个参考模型作比较     

给定参考簇划分C*,对数据集D,通过聚类得到的簇划分为C

λ 与 λ∗分别表示C和C*对应的簇标记向量。

91466e5cf455d7a9b00b06e80a2b1aea_SouthEast.png

通过C和C*的比较,得出相应的参数,再使用公式进行性能度量

二、使用内部指标:

直接对聚类结果进行分析,不进行参考

5a9b9d95a3f52e745a4d2553077fd500_SouthEast.png

主要是利用样本点之间的距离来进行度量

DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小,显然,内部是越小越好,样本簇之间是越大越好

Dunn则是比较样本簇之间最小距离和样本簇之间最大距离,主要是样本簇之间进行比较显然,样本簇之间最小距离越大,最大距离越小说明样本簇内部聚合度越高,样本簇之间的距离越远

距离计算,应该是聚类的核心之一,距离的计算基本上是样本点与样本点之间距离的计算,通过利用得到的距离,可以判断该点的大致类别

3b1fc35359b5d63f8caf10541f1429bb_SouthEast.png

这用来计算样本点中的有序属性比较方便;

但现实生活中还有(交通工具:火车,汽车,飞机)这样的无序属性,此时采用VDM距离:

令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:

e0ecab162a9e276decaf2d80c8dffbab_SouthEast.png

无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”

在不少现实任务中,我们需要基于数据样本来确定合适的距离计算式,如果有兴趣可以学习 “距离度量学”


最后盖个章~

Shiloh的读书笔记~


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
打赏
0
0
0
0
4
分享
相关文章
|
9天前
|
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
44 15
JavaScript 中通过Array.sort() 实现多字段排序、排序稳定性、随机排序洗牌算法、优化排序性能,JS中排序算法的使用详解(附实际应用代码)
Array.sort() 是一个功能强大的方法,通过自定义的比较函数,可以处理各种复杂的排序逻辑。无论是简单的数字排序,还是多字段、嵌套对象、分组排序等高级应用,Array.sort() 都能胜任。同时,通过性能优化技巧(如映射排序)和结合其他数组方法(如 reduce),Array.sort() 可以用来实现高效的数据处理逻辑。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
491 13
机器学习算法的优化与改进:提升模型性能的策略与方法
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
71 14
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
基于生物地理算法的MLP多层感知机优化matlab仿真
本程序基于生物地理算法(BBO)优化MLP多层感知机,通过MATLAB2022A实现随机数据点的趋势预测,并输出优化收敛曲线。BBO模拟物种在地理空间上的迁移、竞争与适应过程,以优化MLP的权重和偏置参数,提升预测性能。完整程序无水印,适用于机器学习和数据预测任务。
基于LSB最低有效位的音频水印嵌入提取算法FPGA实现,包含testbench和MATLAB对比
本项目展示了一种基于FPGA的音频水印算法,采用LSB(最低有效位)技术实现版权保护与数据追踪功能。使用Vivado2019.2和Matlab2022a开发,完整代码含中文注释及操作视频。算法通过修改音频采样点的最低有效位嵌入水印,人耳难以察觉变化。然而,面对滤波或压缩等攻击时,水印提取可能受影响。该项目运行效果无水印干扰,适合实时应用场景,核心逻辑简单高效,时间复杂度低。
基于GA遗传算法的拱桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现拱桥静载试验车辆最优布载的MATLAB仿真,旨在自动化确定车辆位置以满足加载效率要求(0.95≤ηq≤1.05),目标是使ηq尽量接近1,同时减少车辆数量和布载耗时。程序在MATLAB 2022A版本下运行,展示了工况1至工况3的测试结果。通过优化模型,综合考虑车辆重量、位置、类型及车道占用等因素,确保桥梁关键部位承受最大荷载,从而有效评估桥梁性能。核心代码实现了迭代优化过程,并输出最优布载方案及相关参数。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等