人工智能AI常见的经典K-means聚类算法原理和工作过程

简介: 人工智能AI常见的经典K-means聚类算法原理和工作过程K-means聚类算法亦称K聚类均值算法,K-means算法是硬聚类算法中的一种。
人工智能AI常见的经典K-means聚类算法原理和工作过程

K-means聚类算法亦称K聚类均值算法,K-means算法是硬聚类算法中的一种。聚类算法是一类无监督机器学习。K-means算法是计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。K-means算法是典型的基于距离的聚类算法,以距离作为相似性的评价标准,认为两个对象的距离越近,其相似度就越大。物以类聚,人以群分。K均值算法认为簇是由距离靠近的对象组成的,因此把获得距离相近且独立的簇作为最终求解目标。
聚类算法首先要解决相异度问题。即如何定量分析两个可比较元素的相异度。通俗的说法,相异度就是两个东西差别有多大。例如人与章鱼的相异度明显大于人与黑猩猩的相异度,这是人们可以直观感受到的。但是,计算机没有这种直观感受能力,必须对相异度在数学上进行定性、定量。
凡是能把现实世界的事务属性抽象成向量,就可用K-Means算法进行分类。K-Means算法核心思想:指定算法初始点(initial centroids),作为聚类的分类(cluster),重复迭代直至算法收敛为止。
数学坐标系中的二维坐标点(x,y),是一种向量,是一种数学抽象。现实世界中很多属性都可以抽象成向量。比如,人的年龄,喜好,偏好的商品等等,抽象成向量的目的是可以让计算机知道某两个属性间的距离。假定,18岁的人与24岁的人的距离要比离12岁的距离要近。鞋子离衣服这个商品的距离要比电脑要近等等。

K均值算法的弊端
K-Means主要有两个最重大的缺陷——都和初始值有关:
(一)K是先验给定的,但是K值的选定往往非常难以估计。对于大型数据集,到底应该划分几个类群,这在算法启动前是无法准确给出的。
(二)K均值算法需要初始随机种子点启动算法,这个随机种子点很关键,选取不同的随机种子点将得到完全不同的结果和算法执行效率。

以上是关于K-means算法的抽象描述,现在结合一个实际的数据集,运用K-means算法原理进行聚类工作过程。
假设现在有一个杂乱无序数据集D = { 2 , 8 , 3 , 9 },共四个数据。即D1=2,D2=8,D3=3,D4=9。要求对数据集D聚类成两个簇,即K=2。
因为数据量小,人类可以直观的把它们划分为两个簇:{2,3} 和 {8,9},但是机器却无法直观的感受和划分,必须依据一定的算法进行计算才能归类。现在开始用K-means算法进行聚类,下面是K-means算法执行的具体工作步骤和过程:
【准备阶段】选取质心。质心的选择可以任意选取,但尽量要合理。质心可由数据集D内部产生,也可以先验选取合理的值作为质心,我在这里选取两个值center1和center2分别作为两个簇cluster1和cluster2的质心:center1=2,center2=3。

【算法执行阶段】把数据集D全部数据(本例是4个)中的每一个,分别和质心center1和center2计算相异度。相异度小的归入质心所在的簇。以欧氏距离(Euclidean distance)做为相异度。相异度小则归入该簇。


开始算法:
(第一轮循环) 初始化的质心center1=2,center2=3
对于D1=2,距离center1的欧式距离=0,距离center2的欧式距离=1,0<1,故D1归入center1所在的簇:cluster1。此时cluster1={2},cluster2={}。
对于D2=8,距离center1的欧式距离=6,距离center2的欧式距离=5,6>5,故D2归入center2所在的簇:cluster2。此时cluster1={2},cluster2={8}。
对于D3=3,距离center1的欧式距离=1,距离center2的欧式距离=0,1>0,故D3归入center2所在的簇:cluster2。此时cluster1={2},cluster2={8,3}。
对于D4=9,距离center1的欧式距离=7,距离center2的欧式距离=6,7>6,故D4归入center2所在的簇:cluster2。此时cluster1={2},cluster2={8,3,9}。
经过第一轮循环,得到cluster1={2},cluster2={8,3,9}。

(第二轮循环) 经过第一轮循环处理后,得到cluster1={2},cluster2={8,3,9}。选取新质心,此时选择质心以簇内的算术平均值为质心。那么新的cluster1质心center1=2/1=2;cluster2质心center2=(8+3+9)/3=6.67(四舍五入)。于是此时center1=2,center2=6.67。
对于D1=2,距离center1的欧式距离=0,距离center2的欧式距离=4.47,0<4.47,故D1归入center1所在的簇:cluster1。此时cluster1={2},cluster2={}。
对于D2=8,距离center1的欧式距离=6,距离center2的欧式距离=1.33,6>1.33,故D2归入center2所在的簇:cluster2。此时cluster1={2},cluster2={8}。
对于D3=3,距离center1的欧式距离=1,距离center2的欧式距离=0,1<3.37,故D3归入center1所在的簇:cluster1。此时cluster1={2,3},cluster2={8}。
对于D4=9,距离center1的欧式距离=7,距离center2的欧式距离=2.33,7>2.33,故D4归入center2所在的簇:cluster2。此时cluster1={2,3},cluster2={8,9}。
经过第二轮循环,得到cluster1={2,3},cluster2={8,9}。

(第三轮循环) 经过第二轮循环处理后,得到cluster1={2,3},cluster2={8,9}。选取新质心,此时选择质心以簇内的算术平均值为质心。那么新的cluster1质心center1=(2+3)/2=2.5;cluster2质心center2=(8+9)/2=8.5。于是此时center1=2.5,center2=8.5。
对于D1=2,距离center1的欧式距离=0.5,距离center2的欧式距离=6.5,0.5<6.5,故D1归入center1所在的簇:cluster1。此时cluster1={2},cluster2={}。
对于D2=8,距离center1的欧式距离=5.5,距离center2的欧式距离=0.5,5.5>0.5,故D2归入center2所在的簇:cluster2。此时cluster1={2},cluster2={8}。
对于D3=3,距离center1的欧式距离=0.5,距离center2的欧式距离=5.5,0.5<5.5,故D3归入center1所在的簇:cluster1。此时cluster1={2,3},cluster2={8}。
对于D4=9,距离center1的欧式距离=6.5,距离center2的欧式距离=0.5,6.5>0.5,故D4归入center2所在的簇:cluster2。此时cluster1={2,3},cluster2={8,9}。
经过第三轮循环后,得到cluster1={2,3},cluster2={8,9}。

(第四轮循环) 经过第三轮循环处理后,得到cluster1={2,3},cluster2={8,9}。选取新质心,此时选择质心以簇内的算术平均值为质心。那么新的cluster1质心center1=(2+3)/2=2.5;cluster2质心center2=(8+9)/2=8.5。于是此时center1=2.5,center2=8.5。发现新选取的质心和上一轮即第三轮使用的质心相同,说明算法已经收敛,K-means算法聚类划分完成,计算结束。最终得到的两个簇为:
cluster1={2,3}
cluster2={8,9}
是理想的聚类结果。说明算法成功完成划分。
以上循环涉及到的算法数据可以简化为:

D={2,8,3,9},即D1=2 , D2=8 , D3=3 , D4=9

循环1:
质心center1=2 ,center2= 3
cluster1={2}, cluster2={8,3,9}

循环2:
质心center1=2/1=2 ,center2= (8+3+9)/3=6.67
cluster1={2,3}, cluster2={8,9}

循环3:
质心center1=(2+3)/2=2.5 ,center2= (8+9)/2=8.5
cluster1={2,3}, cluster2={8,9}

循环4:
质心center1=(2+3)/2=2.5 ,center2= (8+9)/2=8.5
质心和上一轮循环相同,故算法收敛,计算结束。

目录
打赏
0
0
0
0
15
分享
相关文章
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
生成式AI掀起职业革命:哪些工作的门槛越来越低?与生成式人工智能(GAI)认证的兴起
本文探讨生成式AI如何改变职场生态,降低内容创作、数据分析和客户服务等领域的专业门槛,并分析GAI认证的兴起与意义。生成式AI通过自然语言处理、图像生成等技术提升效率,而GAI认证则为企业和个人提供技能标准,助力职业发展。两者结合将塑造未来职场新生态,推动社会进步与技术创新。
生成式AI掀起职业革命:哪些工作的门槛越来越低?与生成式人工智能(GAI)认证的兴起
思维跃迁:生成式人工智能(GAI)认证重塑AI时代核心竞争力范式
在数字化时代,AI不仅是工具,更是思维方式的革新。生成式人工智能(GAI)认证不仅帮助职场人士掌握AI技能,更引领从传统思维向AI思维的转型。通过培养数据敏感性、逻辑严谨性和创新能力,GAI认证填补了技能与思维的鸿沟,为企业和个人提供核心竞争力。拥抱AI思维,共创未来,在数字化浪潮中立于不败之地。
思维跃迁:生成式人工智能(GAI)认证重塑AI时代核心竞争力范式
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
RAG 调优指南:Spring AI Alibaba 模块化 RAG 原理与使用
通过遵循以上最佳实践,可以构建一个高效、可靠的 RAG 系统,为用户提供准确和专业的回答。这些实践涵盖了从文档处理到系统配置的各个方面,能够帮助开发者构建更好的 RAG 应用。
184 11
算法为舟 思想为楫:AI时代,创作何为?
本文探讨了AI时代创作领域的变革与挑战,分析了人类创作者的独特价值,并展望了未来创作的新图景。随着生成式AI技术的发展,创作的传统认知被颠覆,评价体系面临革新。然而,人类创作者凭借批判性思维、情感智能、创意直觉和伦理自觉,依然具有不可替代的价值。文章呼吁创作者转变思维,从竞争走向合作,提升复合能力,关注作品的社会影响,并持续学习进化。在AI助力下,创作将更加民主化、多样化,推动文明进步。最终,人机协同或将成为未来创作的核心模式,共同开创文化发展的新纪元。
破界·共生:生成式人工智能(GAI)认证重构普通人的AI进化图谱
本文探讨人工智能未来十大趋势及其对普通人的影响,涵盖神经形态计算、多模态认知融合等前沿领域。同时,文章重点介绍生成式人工智能(GAI)认证体系,帮助普通人从认知重构、能力进化到职业转型和伦理自觉全面学习AI技术,成为人机共生时代的智能伙伴。GAI认证作为加速器,提供系统培训与专业交流平台,助力个体在AI浪潮中把握机遇,共创未来。
Burp Suite Professional 2025.3 发布,引入 Burp AI 通过人工智能增强安全测试工作流程
Burp Suite Professional 2025.3 发布,引入 Burp AI 通过人工智能增强安全测试工作流程
45 0
Burp Suite Professional 2025.3 发布,引入 Burp AI 通过人工智能增强安全测试工作流程
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
51 6
替代你的不是AI,而是会使用AI的人——生成式人工智能(GAI)认证成为职场新宠
在AI技术飞速发展的数字化时代,职场环境正经历深刻变革。生成式人工智能(GAI)认证的出现,为职场人士提供了提升自我、证明能力的新途径。由培生推出的GAI认证,涵盖核心技能与伦理知识,助力求职者脱颖而出。它不仅是职场晋升的加速器,还为企业认可的专业能力背书。拥抱AI、学习AI,通过GAI认证,让自己成为掌握AI技术的领先者,在竞争中保持优势。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等