Python实现聚类分析和数据降维

简介: Python实现聚类分析和数据降维

KMeans聚类算法


KMeans算法介绍


       K-Means是聚类算法中最常用的一种,是一种迭代求解的聚类分析算法; 聚类是一种 无监督学习,事先并不知道分类标签是什么,它能够将具有相似特征的对象划分 到同一个集 合(簇)中。簇内的对象越相似,聚类算法的效果越好。


KMeans算法原理


1 从样本中随机选择K个点——聚类中心(也可以随机生成K个并不存在于原始 数据中的样 本点作为初始聚类中心)

2 簇分配:遍历每个样本,然后根据每一个点是与红色聚类中心更近,还是与 蓝色聚类中心更近,来将每个数据点分配给K个聚类中心之一

3 根据聚类结果,重新计算k个簇各自的平均值(Means)位置,将该平均值位 置作为该簇新的聚类中心

4 不断重复迭代上述的(2)与(3)两个步骤,直到聚类中心点的变化很小, 或者达到指定的迭代次数

KMeans损失函数



KMeans损失函数是每个数据点与其所关联的聚类中心点之间的平均距离

最小化损失函数可以帮助k-means找到更好的簇

注意 : 对于聚类数量的选择(参数K的选择),没有一个统一的选择方法,可以根 据业务需要选择


KMeans的衡量指标


CH指标:同时考虑了各个簇之间的分离程度与簇内部的分离程度,来衡量聚类 效果。CH分数越高,说明聚类效果越好


实战——KMeans聚类分析

sklearn中使用sklearn.cluster.KMeans实现KMeans算法


KMeans聚类效果衡量指标使用sklearn.metrics.calinski_harabasz_score


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
# 生成数据样本
X,y = make_blobs(n_samples=1000,n_features=2,
           centers=[[-1,-1],[0,0],[1,1],[2,2]],
          cluster_std=[0.4,0.2,0.2,0.2],random_state=666)
plt.scatter(X[:,0],X[:,1])
plt.show()



先用KMeans聚成两类观察


from sklearn.cluster import KMeans
# 创建KMeans算法对象,设置聚成两类
km = KMeans(n_clusters=2,random_state=666) 
km.fit(X) # 无监督学习,拟合的时候不需要样本标签
y_predict = km.predict(X)  # 预测
plt.scatter(X[:,0],X[:,1],c=y_predict)  # 预测为同一簇的样本同颜色
plt.show()


# 使用CH指标评价聚类效果(本题是在训练样本集上评价)
from sklearn.metrics import calinski_harabasz_score
calinski_harabasz_score(X,y_predict)

KMeans聚成四类观察


from sklearn.cluster import KMeans
# 创建KMeans算法对象,设置聚成四类
km2 = KMeans(n_clusters=4,random_state=666) 
km2.fit(X) # 无监督学习,拟合的时候不需要样本标签
y_predict2 = km2.predict(X)  # 预测
plt.scatter(X[:,0],X[:,1],c=y_predict2)  # 预测为同一簇的样本同颜色
plt.show()


# 使用CH指标评价聚类效果(本题是在训练样本集上评价)
from sklearn.metrics import calinski_harabasz_score
calinski_harabasz_score(X,y_predict2)


显然聚成四类要比聚成两类效果好


PCA降维原理

PCA(Principal Component Analysis),主成分分析是线性 的数据降维技术,采用一 种数学降维的方法,在损失很少信息的前提下,找出几个综合变量 作为主成分,来代替原来 众多的变量,使这些主成分能够尽可能地代表原始数据的信息,其 中每个主成分都是原始变 量的线性组合,而且各个主成分之间不相关(即线性无关)。


sklearn中使用PCA


在sklearn中使用PCA降维要使用sklearn.decomposition.PCA

PCA对象的explained_variance_表示PCA的解释方差得分

拟合使用fit方法,降维使用transform方法

实战_PCA对红酒数据降维并可视化

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
import matplotlib.pyplot as plt
# 使用PCA对酒数据集进行降维
pca = PCA(n_components=13,random_state=123)
pca.fit(wine_x)
# 可视化PCA的解释方差得分
exvar = pca.explained_variance_  # 获取PCA的解释方差得分
plt.figure(figsize=(10,6))
plt.plot(exvar,"r-o")
plt.hlines(y=1,xmin=0,xmax=12)   # 横线绘制
plt.xlabel("the number of attribute")
plt.ylabel("explained variance")
plt.title("PCA")
plt.show()




可以发现,使用数据的前三个主成分较合适



pca_wine_x = pca.transform(wine_x)[:,:3]   # 降维操作
pca_wine_x.shape
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(pca_wine_x[ii,0],pca_wine_x[ii,1],pca_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
ax1.set_xlabel("Principal Component 1",rotation=20)
ax1.set_ylabel("Principal Component 2",rotation=-20)
ax1.set_zlabel("Principal Component 3",rotation=90)
ax1.azim = 225
ax1.set_title("PCA ")
plt.show()



实战_KPCA核主成分分析


KPCA降维原理


       核主成分分析(Kernel Principal Component Analysis)对于 输入空间中的矩阵X,先 用一个非线性映射把X中的所有样本映射到一个高维甚至是无穷维的 空间(特征空间),使 其线性可分,然后在这个高维空间进行PCA降维。


sklearn中使用KPCA


在sklearn中使用PCA降维要使用 sklearn.decomposition.KernelPCA

KernelPCA对象的lambdas_表示KPCA的中心核矩阵特征值

拟合使用fit方法,降维使用transform方法

from sklearn.decomposition import KernelPCA
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
# 解决中文乱码和负号显示的设置
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']  
mpl.rcParams['font.serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
import matplotlib.pyplot as plt
# 使用KPCA获取数据的主成分
# 核函数使用rbf核
kpca = KernelPCA(n_components=13,kernel="rbf",gamma=0.2,random_state=123)
kpca.fit(wine_x)
# 可视化KPCA的中心矩阵特征值
lambdas = kpca.lambdas_
plt.figure(figsize=(10,6))
plt.plot(lambdas,"r-o")
plt.hlines(y=4,xmin=0,xmax=12)
plt.xlabel("特征数量")
plt.ylabel("中心核矩阵的特征值大小")
plt.title("核主成分分析")
plt.show()


# 获取前3个核主成分
kpca_wine_x = kpca.transform(wine_x)[:,:3]  # 降维操作
kpca_wine_x.shape
# 在3D空间中可视化KPCA分析后的数据空间分布
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(kpca_wine_x[ii,0],kpca_wine_x[ii,1],kpca_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
ax1.set_xlabel("核主成分1",rotation=20)
ax1.set_ylabel("核主成分2",rotation=-20)
ax1.set_zlabel("核主成分3",rotation=90)
ax1.azim = 225
ax1.set_title("KPCA特征空间可视化")
plt.show()


实战_t-SNE数据降维

t-SNE降维原理


       TSNE是另一种常用的数据降维方法。由T和SNE组成,也就是T 分布和随机近邻嵌入 (Stochastic neighbour Embedding)。其主要优势在于高维数据 空间中距离相近的点投 影到低维空间中仍然相近。 t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的 相似度由高斯联合概率 表示,嵌入空间的相似度由“学生t分布”表示。


       简单解释t-SNE的降维原理:想要将二维数据点映射到一维,并 且还要保存原来二维空间 中的聚类情况。




sklearn中使用t-SNE

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
# 解决中文乱码和负号显示的设置
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']  
mpl.rcParams['font.serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
# 创建TSNE对象,设置低维空间的维度(保留的特征数)
tsne = TSNE(n_components=3,perplexity=25,early_exaggeration=3,
            random_state=123)
tsne_wine_x = tsne.fit_transform(wine_x)   #  拟合并转换(降维)
import matplotlib.pyplot as plt
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(tsne_wine_x[ii,0],tsne_wine_x[ii,1],tsne_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
ax1.set_xlabel("特征1",rotation=20)
ax1.set_ylabel("特征2",rotation=-20)
ax1.set_zlabel("特征3",rotation=90)
ax1.azim = 225
ax1.set_title("TSNE降维并可视化")
plt.show()
目录
相关文章
|
6月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
4103 1
|
6月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
664 0
|
6月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
6月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
7月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
7月前
|
存储 JSON 算法
Python集合:高效处理无序唯一数据的利器
Python集合是一种高效的数据结构,具备自动去重、快速成员检测和无序性等特点,适用于数据去重、集合运算和性能优化等场景。本文通过实例详解其用法与技巧。
222 0
|
7月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
7月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
7月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
7月前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。

推荐镜像

更多