基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好

简介: 本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。

以微博考研话题为例

思路步骤:

数据清洗:

使用pandas读取数据文件,并进行数据清洗和预处理,包括去除重复值、数据替换等。

数据处理实现:

数据处理的过程如下:

数据清洗主要包括去重和数据转换两个步骤。

首先,通过使用drop_duplicates函数对原始数据进行去重操作。在代码中,根据内容这一列进行去重,并将去重后的结果重新赋值给新的DataFrame。这样可以确保每条内容的唯一性,避免出现重复的数据。

接下来,进行数据转换的步骤。转换主要是针对性别和是否认证两个数据,将字符串通过map函数都替换为数值,从而实现清洗效果。

数据清洗是数据分析的前提和基础,通过去重和替换等步骤,可以对原始数据进行初步的处理和整理,为后续的数据分析和挖掘提供高质量、准确的数据基础。清洗后的数据具有更好的可用性和可靠性,能够提供更准确、可靠的结果和结论,从而支持决策和解决实际问题的需求。

聚类分析(main.py):

聚类数量的选择和评估使用拐点法和轮廓系数法实现。通过评估不同聚类数量下的总的簇内离差平方和,可以找到一个合适的聚类数量,以便在K-Means算法(k-means.py)中应用于考研数据的聚类分析。选择最佳的聚类数量有助于获得更准确且有意义的聚类结果,并提供对数据的更深入理解和洞察。

拐点法:

1. 聚类数量的选择:

通过调整K值(簇的个数),探索不同聚类数量下的聚类效果。在代码中,通过设置clusters参数来确定聚类数量的范围。例如,设置clusters = 15表示尝试聚类数量从1到15的情况。

2. 总的簇内离差平方和(Total SSE)的评估:

使用K-Means算法进行聚类,并计算每个簇的样本离差平方和(SSE)。然后,将每个簇的SSE求和,得到总的簇内离差平方和(Total SSE)。在代码中,通过自定义函数k_SSE绘制了不同聚类数量(K值)与总的簇内离差平方和之和的折线图。

3. 拐点法选择最佳聚类数量:

在折线图中观察聚类数量(K值)与总的簇内离差平方和之和的关系。寻找一个拐点,即曲线开始趋于平缓的位置。这个拐点对应的聚类数量通常被认为是最佳的聚类数量。在代码中,通过绘制折线图来观察聚类数量与总的簇内离差平方和之和之间的关系,并根据拐点法选择最佳的聚类数量,拐点法得出的结果如图所示可知,该方法的拐点为3。

轮廓系数法

在选择合适的聚类数量时,使用了轮廓系数法。具体做法是,对于聚类数量从2到14的范围内的每个值,计算对应聚类数量下的轮廓系数得分。轮廓系数(silhouette score)是一种用于评估聚类质量的指标,其取值范围为[-1, 1],越接近1表示聚类效果越好。通过绘制轮廓系数得分随聚类数量变化的曲线图,可以观察到不同聚类数量下的聚类效果,并选择最佳的聚类数量。

最后,代码使用matplotlib库绘制了轮廓系数得分随聚类数量变化的曲线图,横坐标为聚类数量(N 簇),纵坐标为轮廓系数得分(score)。根据曲线图可以进行观察和判断,选择合适的聚类数量,轮廓系数法得到的结果如图可知最合适聚类数=3.

聚类分析实现与结果可视化

实现聚类分析的过程,首先读取数据,并进行数据清洗和预处理。清洗部分包括删除含有空值的数据,预处理部分对数据进行了格式修改和标准化处理。

接下来,使用轮廓系数法选择合适的聚类数量,并绘制了聚类数量与轮廓系数得分之间的曲线图。通过观察曲线图,可以选择最佳的聚类数量。

然后,根据选择的聚类数量,使用KMeans算法进行聚类,并将聚类结果可视化。代码中通过降维算法t-SNE对数据进行降维,然后绘制了降维后的数据和聚类中心的散点图,并根据聚类结果进行着色。最后完成了数据的聚类分析,帮助理解数据在不同特征上的聚类情况,聚类结果如图,其中横坐标是数据降维之后点数据与中心点距离的横坐标,Y轴是数据降维之后点数据与中心点距离的纵坐标,图中的+代表每一个类的中心点

根据对微博内容的聚类分析,可以看出用户在微博中主要讨论了考研相关话题。其中包括考研备考经历、学习进度记录、各学校考研信息分享等内容。用户们在微博中表达了对考研的焦虑、努力学习的决心以及对未来的期待。有些用户分享了自己的学习计划和成果,也有用户寻求学习伙伴互相督促。此外,还有用户分享了考研资讯、心得体会和对未来的展望。整体来看,这些微博内容反映了考研群体的学习状态和情绪,展现了他们对考研目标的追求和努力,同时也体现了他们之间的互动和支持,共同面对考研的压力和挑战。

类别一:考研备考经历分享

这类微博内容主要包括用户对自己考研备考过程中的心情体验、努力学习的决心以及对未来的期待和规划的分享。用户们在微博中记录了自己的学习进度、备考经历和成果,表达了对考研的焦虑和对未来的期

类别二:学习进度记录和资讯分享

这类微博内容主要涵盖用户的学习进度记录、复习计划安排、学习资料整理和考研资讯分享等内容。用户们在微博中分享了自己的学习计划、复习笔记、真题练习情况,也有用户分享了各学校考研信息和最新动态。

类别三:寻求学习伙伴和互相督促

这类微博内容主要是用户在微博上寻找学习伙伴,希望能够互相督促、分享学习经验和生活感悟。用户们希望通过微博平台找到志同道合的伙伴,共同努力学习,互相支持和鼓励。

相关文章
|
10天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
11天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
27天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
6天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
29 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
6天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
22 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
6天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
31 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
11天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
28 2
|
12天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
19天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
63 7
|
1月前
|
数据可视化 算法 Python
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
本文介绍了如何利用Python脚本结合动态模态分解(DMD)技术,分析从OpenFOAM模拟中提取的二维切片数据,以深入理解流体动力学现象。通过PyVista库处理VTK格式的模拟数据,进行POD和DMD分析,揭示流场中的主要能量结构及动态特征。此方法为研究复杂流动系统提供了有力工具。
70 2
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析