(转) K-Means聚类的Python实践

简介:   本文转自: http://python.jobbole.com/87343/ K-Means聚类的Python实践2017/02/11 · 实践项目 · K-means, 机器学习分享到:1原文出处: 搜不狐    K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。

 

 

本文转自: http://python.jobbole.com/87343/

 

K-Means聚类的Python实践

 

K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。

 

然后,真正实践的时候才会思考的更加深入一点,比如本文的实践内容就是一个失败的案例(算法是成功的,场景是失败的)。

什么是聚类


简单的说,就是对于一组不知道分类标签的数据,可以通过聚类算法自动的把相似的数据划分到同一个分类中。即聚类与分类的区别主要在于,聚类可以不必知道源数据的标签信息。

K-Means(K均值)


K均值是一种比较简单的聚类算法,下图是来自wiki:

从图中可以看出,K-Means首先在空间中随机选取三个点(彩色的),这些点可以是某个数据点所在的位置,也可以是纯粹的空间随机点。然后类似拉帮结派一样,到自己附近“抓人”。第一轮抓完之后形成了三个稳定的新“帮派”,这时候每一个帮派由于成员发生了变化,大家就重新投票选择新的“核心”,也就是中间点。选好新的核心之后,这个核心就又开始新一轮的拉帮结派。然后不断的循环迭代,直到整个空间稳定时停止。

K-Means算法描述


上面对K-Means的介绍已经比较详细了,现在,如果把K-Means算法总结成算法描述,其实只需要四步骤:

  1. 任意选择k个点,作为初始的聚类中心。
  2. 遍历每个对象,分别对每个对象求他们与k个中心点的距离,把对象划分到与他们最近的中心所代表的类别中去,这一步我们称之为“划分”。
  3. 对于每一个中心点,遍历他们所包含的对象,计算这些对象所有维度的和的中值,获得新的中心点。
  4. 计算当前状态下的损失(用来计算损失的函数叫做Cost Function,即价值函数),如果当前损失比上一次迭代的损失相差大于某一值(如1),则继续执行第2、3步,知道连续两次的损失差为某一设定值为止(即达到最优,通常设为1)。

距离函数


计算距离有很多种方式,我这里使用的是最简单的欧氏距离,其他的几种距离可以参考酷壳的这篇博客

损失函数(Cost Function)

每一次选取好新的中心点,我们就要计算一下当前选好的中心点损失为多少,这个损失代表着偏移量,越大说明当前聚类的效果越差,计算公式称为(Within-Cluster Sum of Squares, WCSS):

其中,$ x_{i} $ 表示某一对象,$c_{k}$表示该对象所属类别的中心点。整个式子的含义就是对各个类别下的对象,求对象与中心点的欧式距离的平方,把所有的平方求和就是$L(C)$。

评价标准


采用聚类的数据,通常没有已知的数据分类标签,所以通常就不能用监督学习中的正确率、精确度、召回度来计算了(如果有分类标签的话,也是可以计算的)。

常用于聚类效果评价的指标为:Davies Bouldin Index,它的表达式可以写为:

其中,$ rho_{i} $和 $ rho_{j} $ 都表示i,j两个分类中的所有对象到中心点的平均距离。而分母中的$c_{i}$和分别表示i,j两个分类的中心点之间的距离。整个表达式的含义就是,聚类效果越好,两个分类间的距离应该越远,分类内部越密集。

Python实践


#### 一、数据准备 — 如之前所写的朴素贝叶斯分类详解一样,我们的第一步依然是进行数据准备,所不同的是,由于我们不再需要对模型进行训练,所以不必拆分原始数据为训练和测试两部分。

数据向量化

这部分是要格外注意的,要根据不同的数据使用不同的度量单位,比如我们现在是对新闻进行聚类,最初我使用的是,每一个单词作为一个向量,单词的频度就是该维度上的值,但是后来发现结果非常差,经过请教前辈,发现对新闻聚类最好不要使用词频,而且要抛出新闻长度对结果的影响。

举个例子:假如一个新闻A包含Google,Baidu两个词各一次,而B分别包含两个单词歌两次,那么实际上他们属于同一种分类的概率应该是一样的,也就是距离为0才对。

另外,即便是不使用词频,也要注意抛弃总长度对结果的影响,比如A(Google,Baidu),而B是(Google,Baidu,Netease),那么A、B的欧式长度分别是根号2和根号3,这也不合理,我们需要正规化操作,让他们的欧氏距离总长度都相等(参看我代码里的normalize函数)。

二、初始化随机点


我们的新闻数据已知属于5个类别,所以我们就初始设定5个随机点,我使用了random.random()函数来随机选择,具体代码在initCenters函数部分。

在初始化过程完成的工作有:

  1. 第一次设定初始聚类中心
  2. 第一次为这些中心点分配对象
  3. 分配对象完成之后进行重新定位中心点
  4. 对定位后的中心点计算损失函数

三、迭代进行K-Means优化


如上面介绍K-Means算法的时候提到的,这部分需要不断的重新划分对象,重新定位中心点和计算损失函数,然后根据损失函数与上一次的对比决定是不是要继续迭代。

这部分代码在start函数内。

四、Cost Function


具体损失函数如何计算的,之前是在costFunction内,但是我发现分配对象到中心点的时候,可以顺便把损失计算出来,为了提升性能,我把costFunction的代码合并到了split函数内。

下面是完整的程序代码:

输出结果:

由于初始点是随机选择的,所以结果并不是很好,这点可以使用k-means++算法改进,以后再写吧。

1、对于运算速度非常慢:


瓶颈在于两个地方,主要就是计算欧氏距离的时候,需要所有对象分别与中心点求差平方,而中心点根据实际使用,发现维度高达2W或3W,2500个文章,相当于进行2500 * 3W次的(基本运算+乘法运算),目前网上有不少库专门做这个事情,但总结起来还是没法根本上解决此问题。

2、对于分类效果较差:


我选择的场景更适合用朴素贝叶斯这种概率分类或者SVM这种间隔分类,因为K-Means的效果对初始的几个点的依赖非常大,如果运气不好选在了边缘或者几个分类的中间,那效果就会奇差。

解决办法:

避免在新闻分类或其他高维数据下使用K-Means,除非能解决初始中心点的选择问题,关于这点,我们后面的高斯混合模型可以部分解决这个问题。

而对于性能问题我目前无解,暂时想不到合适的数据结构来简化计算,唯一能想到的就是用C函数替代欧氏距离和损失函数的计算部分。

如果您有好的解决办法,请联系我QQ:83534146 ,望不吝指导,多谢!

 
相关文章
|
3天前
|
缓存 测试技术 Python
Python 中的装饰器:从入门到实践
【9月更文挑战第3天】本文将引导你理解 Python 中装饰器的概念,并通过实际代码示例展示如何创建和使用装饰器。我们将从基础出发,逐步深入到装饰器的高级应用,让你能够轻松掌握这一强大的工具。
|
5天前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
【8月更文挑战第33天】本文旨在通过浅显易懂的语言,带领读者了解Python中一个强大而神秘的功能——装饰器。我们将从装饰器的基本概念出发,逐步深入到它们的高级应用,最后通过实际代码示例展示如何在日常编程中灵活运用装饰器来简化代码、增强功能。文章不仅适合初学者构建对装饰器的初步认识,也适合有一定基础的开发者深化理解并实践。
18 5
|
5天前
|
机器学习/深度学习 数据挖掘 Python
深入浅出:Python编程入门与实践
【9月更文挑战第2天】本文旨在为初学者提供一份简明扼要的Python编程入门指南,通过浅显易懂的语言和实际代码示例,引导读者步入编程世界的大门。我们将从Python的基本语法入手,逐步深入到函数、模块以及面向对象编程的概念,并结合具体案例,展示如何将理论知识应用于解决实际问题。文章不仅适合零基础的初学者,也能帮助有一定基础的学习者巩固和提升编程技能。
|
8天前
|
设计模式 数据库 开发者
探索Python中的异步编程:从理解到实践
【8月更文挑战第31天】本文旨在通过浅显易懂的语言和具体代码示例,为读者揭开Python异步编程的神秘面纱。我们将从基础概念入手,逐步深入到实战应用,让读者能够不仅理解异步编程的内涵,还能掌握其在实际项目中的应用技巧。无论你是编程新手还是有经验的开发者,这篇文章都将为你提供有价值的见解和指导。
|
8天前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
【8月更文挑战第31天】本文将带你深入理解Python中一个强大而神秘的特性——装饰器。我们将通过直观的示例,从基础概念出发,逐步深入到装饰器的高级应用。你将学会如何创建自己的装饰器,以及如何在项目中利用它们来简化代码、增强功能。无论你是初学者还是有经验的开发者,这篇文章都会为你打开一扇通往更高效编程的大门。让我们开始吧!
|
7天前
|
数据采集 存储 数据库
构建你的第一个Python爬虫:从入门到实践
【8月更文挑战第31天】在数字时代的浪潮中,数据如同新时代的石油,而网络爬虫则是开采这些数据的钻头。本文将引导初学者了解并实现一个基础的网络爬虫,使用Python语言,通过实际代码示例,展示如何收集和解析网页信息。我们将一起探索HTTP请求、HTML解析以及数据存储等核心概念,让你能够快速上手并运行你的首个爬虫项目。
|
7天前
|
测试技术 API 开发者
Python 魔法:打造你的第一个天气查询小工具自动化测试框架的构建与实践
【8月更文挑战第31天】在这篇文章中,我们将一起踏上编程的奇妙旅程。想象一下,只需几行代码,就能让计算机告诉你明天是否要带伞。是的,你没有听错,我们将用Python这把钥匙,解锁天气预报的秘密。不论你是编程新手还是想拓展技能的老手,这篇文章都会为你带来新的视角和灵感。所以,拿起你的键盘,让我们一起创造属于自己的天气小工具吧!
|
7天前
|
缓存 开发者 Python
探索Python中的装饰器:从入门到实践
本文将带你领略Python装饰器的神秘面纱,通过简洁明了的例子,让你轻松掌握装饰器的使用。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效、优雅代码设计的大门。让我们一起来发现装饰器的魅力吧!【8月更文挑战第31天】
|
7天前
|
运维 Kubernetes 监控
自动化运维:使用Python脚本实现系统监控云原生技术实践:Kubernetes在现代应用部署中的角色
【8月更文挑战第31天】在现代IT运维管理中,自动化已成为提高效率和准确性的关键。本文将通过一个Python脚本示例,展示如何实现对服务器的自动监控,包括CPU使用率、内存占用以及磁盘空间的实时监测。这不仅帮助运维人员快速定位问题,也减轻了日常监控工作的负担。文章以通俗易懂的语言,逐步引导读者理解并实践自动化监控的设置过程。 【8月更文挑战第31天】本文旨在探索云原生技术的核心—Kubernetes,如何革新现代应用的开发与部署。通过浅显易懂的语言和实例,我们将一窥Kubernetes的强大功能及其对DevOps文化的影响。你将学会如何利用Kubernetes进行容器编排,以及它如何帮助你的
|
7天前
|
程序员 Python
Python编程入门——从基础到实践
【8月更文挑战第31天】本文旨在为初学者提供一个Python编程的全面引导,包括基础知识、语法结构、实际代码示例以及如何将学到的知识应用于解决实际问题。文章将采用通俗易懂的语言,逐步介绍Python的核心概念,并通过实例展示如何用Python编写简单程序。最后,我们将探讨如何通过项目实战来巩固和提升编程技能。
下一篇
DDNS