【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)

简介: 【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)

需要全部代码请点赞关注收藏后评论区留言私信~~~

K-Mean算法,即 K 均值算法,是一种常见的聚类算法。算法会将数据集分为 K 个簇,每个簇使用簇内所有样本均值来表示,将该均值称为“质心”。

K-Means++,算法受初始质心影响较小;表现上,往往优于 K-Means 算法;与 K-Means算法不同仅在于初始质心的选择方式不同

Mini Batch K-Means

与 K-Means 算法相比,大大减少计算时间

算法步骤

容易受初始质心的影响;算法简单,容易实现;算法聚类时,容易产生空簇;算法可能收敛到局部最小值。

通过聚类可以实现:发现不同用户群体,从而可以实现精准营销;对文档进行划分;社交网络中,通过圈子,判断哪些人可能互相认识;处理异常数据。

距离计算方式是 欧式距离。

1.从样本中选择 K 个点作为初始质心(完全随机)
2.计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中
3.计算每个簇内所有样本的均值,并使用该均值更新簇的质心
4.重复步骤 2 与 3 ,直到达到以下条件之一:
    质心的位置变化小于指定的阈值(默认为 0.0001)
    达到最大迭代次数

K-Means算法文本聚类实战

文本聚类结果如下

部分代码如下

import jieba 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
def jieba_tokenize(text):
    return jieba.lcut(text) 
tfidf_vect = TfidfVectorizer(tokenizer=jieba_tokenize, lowercase=False)
text_list = ["中国的
害","他很高兴去中国工作","真是一个高兴的周末","这件衣服太不舒服啦"]
#聚类的文本集
tfidf_matrix = tfidf_vect.fit(text_list)       #训练
print(tfidf_matrix.vocabulary_)            #打印字典
tfidf_matrix = tfidf_vect.transform(text_list)  #转换
arr=tfidf_matrix.toarray()                 #tfidf数组
print('tfid
n',arr)
num_clusters = 4
km = KMeans(n_clusters=num_clusters, max_iter=300, random_state=3)
km.fit(tfidf_matrix)
prt=km.predict(tfidf_matrix)
print("Predicting result: ", prt)

对半环形数据集进行K-Means聚类

问题描述: SKlearn中的半环形数据集make_moons是一个二维数据集,对某些算法来说具有挑战性。数据集中的数据有两类,其分布为两个交错的半圆,而且还包含随机的噪声

聚类结果如下

部分代码如下

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_moons
#生成环形数据集
X, Y = make_moons(n_samples=200, noise=0.05, random_state=0)
#使用K-Means聚成两类
kmeans = KMeans(n_clusters=2)
kmean(X)
Y_pred = kmeans.predict(X)
#绘制聚类结果图
plt.scatter(X[:, 0], X[:, 1], c=Y_pred, s=60, edgecolor='b')
plt.scatter(kmeans.clustedth=2, edgecolor='k')
plt.xlabel("X")
plt.ylabel("Y")

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
8天前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
108 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
18天前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
20天前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
1月前
|
机器学习/深度学习 数据采集 算法
基于mediapipe深度学习的运动人体姿态提取系统python源码
本内容介绍了基于Mediapipe的人体姿态提取算法。包含算法运行效果图、软件版本说明、核心代码及详细理论解析。Mediapipe通过预训练模型检测人体关键点,并利用部分亲和场(PAFs)构建姿态骨架,具有模块化架构,支持高效灵活的数据处理流程。
|
18天前
|
小程序 PHP 图形学
热门小游戏源码(Python+PHP)下载-微信小程序游戏源码Unity发实战指南​
本文详解如何结合Python、PHP与Unity开发并部署小游戏至微信小程序。涵盖技术选型、Pygame实战、PHP后端对接、Unity转换适配及性能优化,提供从原型到发布的完整指南,助力开发者快速上手并发布游戏。
|
29天前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
457 14
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
426 1
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
811 0

热门文章

最新文章

推荐镜像

更多