主成分分析(PCA)

简介: 定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量

一、什么是主成分分析(PCA)

  • 定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量
  • 作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
  • 应用:回归分析或者聚类分析当中

那么更好的理解这个过程呢?

1.我们来看一张图

2345_image_file_copy_102.jpg

2. 计算案例理解

3. 假设对于给定5个点,数据如下

(-1,-2) (-1, 0) ( 0, 0) ( 2, 1) ( 0, 1)

2345_image_file_copy_103.jpg

要求:将这个二维的数据简化成一维? 并且损失少量的信息

2345_image_file_copy_104.jpg

这个过程如何计算的呢?找到一个合适的直线,通过一个矩阵运算得出主成分分析的结果

2345_image_file_copy_105.jpg

二、API

sklearn.decomposition.PCA(n_components=None)
  • 将数据分解为较低维数空间
  • n_components:
  • 小数:表示保留百分之多少的信息
  • 整数:减少到多少特征
PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
  • 返回值:转换后指定维度的array

数据计算检测

先拿个简单的数据计算一下

2345_image_file_copy_106.jpg

返回结果:

2345_image_file_copy_107.jpg

三、 案例:探究用户对物品类别的喜好细分降维

2345_image_file_copy_108.jpg

数据如下:

  • order_products__prior.csv:订单与商品信息
  • 字段:order_id, product_id, add_to_cart_order, reordered
  • products.csv:商品信息
  • 字段:product_id, product_name, aisle_id, department_id
  • orders.csv:用户的订单信息
  • 字段:order_id,user_id,eval_set,order_number,….
  • aisles.csv:商品所属具体物品类别
  • 字段: aisle_id, aisle

1.需求

2345_image_file_copy_109.jpg

2345_image_file_copy_110.jpg

2 分析

  • 合并表,使得user_id与aisle在一张表当中
  • 进行交叉表变换
  • 进行降维

3 完整代码

2345_image_file_copy_111.jpg

2345_image_file_copy_112.jpg

返回结果

(206209, 44)
目录
相关文章
|
6月前
|
数据采集 机器学习/深度学习 搜索推荐
大模型开发: 描述主成分分析(PCA)以及它在降维中的应用。
PCA是广泛应用的降维技术,通过线性变换找到最大化方差的主成分,降低数据维度,简化计算并揭示数据结构。步骤包括数据预处理、计算协方差矩阵、特征值分解、选择主成分和数据转换。适用于图像识别、推荐系统等领域,但无监督性质可能导致类别信息丢失,且假设数据服从高斯分布。
94 1
|
6月前
|
数据采集 数据可视化 数据挖掘
使用R语言进行主成分分析(PCA)
【4月更文挑战第26天】本文介绍了如何使用R语言进行主成分分析(PCA),包括安装必要包`stats`、`FactoMineR`和`factoextra`,数据预处理如标准化,使用`PCA()`函数执行PCA,以及通过`summary()`、`fviz_pca_ind()`和`fviz_pca_var()`进行结果解读和可视化。此外,还讨论了如何通过载荷系数解释主成分,强调PCA在数据降维和探索数据结构中的作用。
238 1
|
6月前
|
算法 数据可视化 Python
使用Python实现主成分分析(PCA)
使用Python实现主成分分析(PCA)
198 4
|
6月前
|
数据采集
主成分分析
主成分分析
107 0
|
机器学习/深度学习 数据可视化 算法
.Kmeans无监督学习主成分分析(PCA)
.Kmeans无监督学习主成分分析(PCA)
222 0
.Kmeans无监督学习主成分分析(PCA)
|
机器学习/深度学习 算法 搜索推荐
|
机器学习/深度学习 算法 计算机视觉
|
机器学习/深度学习 数据可视化
factoextra 主成分分析(1)
factoextra是一个R软件包,可以轻松提取和可视化探索性多变量数据分析的输出,其中包括: 主成分分析(PCA),用于通过在不丢失重要信息的情况下减少数据的维度来总结连续(即定量)多变量数据中包含的信息。
2600 0
下一篇
无影云桌面