机器学习算法-聚类（一、性能度量和距离计算）

2023-02-01 333 发布于黑龙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习算法-聚类（一、性能度量和距离计算）

最近正式进入到机器学习的理论学习中啦，准备写一些笔记来加深我对机器学习算法的理解~

所谓聚类在我的理解中是：

将数据集中的样本划分为若干个不相交的子集，每个子集即为一个簇：

它可用于寻找数据内在的分布结构，也可作为其它学习任务的前驱过程，来提炼数据

以下是聚类算法涉及的两个基本问题：

性能度量和距离计算：

聚类是将样本划分为若干互不相交的子集（样本簇），当然我们希望是簇内相似度高，簇间相似度底

此时需要性能度量：一般分两类：

一、使用外部指标：

将聚类结果与某个参考模型作比较

给定参考簇划分C*，对数据集D，通过聚类得到的簇划分为C

λ 与 λ∗分别表示C和C*对应的簇标记向量。

通过C和C*的比较，得出相应的参数，再使用公式进行性能度量

二、使用内部指标：

直接对聚类结果进行分析，不进行参考

主要是利用样本点之间的距离来进行度量

DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小，显然，内部是越小越好，样本簇之间是越大越好

Dunn则是比较样本簇之间最小距离和样本簇之间最大距离，主要是样本簇之间进行比较显然，样本簇之间最小距离越大，最大距离越小说明样本簇内部聚合度越高，样本簇之间的距离越远

距离计算，应该是聚类的核心之一，距离的计算基本上是样本点与样本点之间距离的计算，通过利用得到的距离，可以判断该点的大致类别

这用来计算样本点中的有序属性比较方便；

但现实生活中还有（交通工具：火车，汽车，飞机）这样的无序属性，此时采用VDM距离：

令Mu,a表示在属性u上取值为a的样本数，Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为：

无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”

在不少现实任务中，我们需要基于数据样本来确定合适的距离计算式，如果有兴趣可以学习 “距离度量学”

最后盖个章~

Shiloh的读书笔记~

AIEarth是一个由众多领域内专家博主共同打造的学术平台，旨在建设一个拥抱智慧未来的学术殿堂！【平台地址：https://devpress.csdn.net/aiearth】很高兴认识你！加入我们共同进步！

机器学习算法-聚类（一、性能度量和距离计算）

一、使用外部指标：

二、使用内部指标：

Shiloh的读书笔记~

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习算法-聚类（一、性能度量和距离计算）

一、使用外部指标：

二、使用内部指标：

Shiloh的读书笔记~

热门文章

最新文章

相关课程

相关电子书

相关实验场景