备案控制台

开发者社区彭世瑜的博客文章正文

机器学习：数据降维特征选择和主成分分析PCA

2022-09-04 142

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习：数据降维特征选择和主成分分析PCA

数组维度

数据维度：特征数量

特征选择和主成分分析使用：

特征选择特征较少时使用
主成分分析特征有上百个

1、特征选择

主要方法：

Filter 过滤式（方差variance）

Embedded 嵌入式（正则化，决策时）

Wrapper 包裹式

代码示例

from sklearn.feature_selection import VarianceThreshold
# 特征选择-删除低方差的特征
data = [
    [0, 2, 0, 3],
    [0, 1, 4, 3],
    [0, 1, 1, 3]
]
var = VarianceThreshold(threshold=0.0)
result = var.fit_transform(data)
print(result)
"""
[[2 0]
 [1 4]
 [1 1]]
"""

2、主成分分析PCA

PCA(principal Component Analysis)

二维表示一个立体物体

特征选择的原因

冗余：部分特征的相关度高，容易消耗计算资源

噪声：部分特征对预测结果有影响

本质：一种分析，简化数据集的技术

目的：使数据维数压缩，竟可能降低元数据的维数（复杂度），损失少量信息

作用：可以削减回归分析或者聚类分析中特征的数量

场景：特征数量达到上百的时候，考虑数据简化

代码示例

from sklearn.decomposition import PCA
data = [
    [2, 8, 4, 5],
    [6, 3, 0, 8],
    [5, 4, 9, 1]
]
# n_components取小数：保留百分比，取整数：保留特征个数
pca = PCA(n_components=0.9)
result = pca.fit_transform(data)
print(result)
"""
[[-3.13587302e-16  3.82970843e+00]
 [-5.74456265e+00 -1.91485422e+00]
 [ 5.74456265e+00 -1.91485422e+00]]
"""

文章标签：

机器学习/深度学习

关键词：

人工智能平台 PAI数据

人工智能平台 PAI分析

人工智能平台 PAI pca

人工智能平台 PAI特征选择

人工智能平台 PAI数据降维

码农技术君

目录

相关文章

楠竹11

|

2天前

|

机器学习/深度学习数据采集数据处理

谷歌提出视觉记忆方法，让大模型训练数据更灵活

谷歌研究人员提出了一种名为“视觉记忆”的方法，结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分，支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示，该方法在多个数据集上取得了优异的性能，如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制，但视觉记忆为深度学习提供了新的思路。

楠竹11

9 2 2

zzy的aly

|

28天前

|

数据采集移动开发数据可视化

模型预测笔记(一)：数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程，包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤，并展示了模型融合技术。

zzy的aly

43 1 1

模型预测笔记(一)：数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

土木林森

|

24天前

|

机器学习/深度学习存储人工智能

揭秘机器学习背后的神秘力量：如何高效收集数据，让AI更懂你？

【10月更文挑战第12天】在数据驱动的时代，机器学习广泛应用，从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例，探讨数据收集方法，包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程，最终完成数据的训练集和测试集划分，为模型训练奠定基础。

土木林森

37 3 3

土木林森

|

25天前

|

机器学习/深度学习算法 Python

“探秘机器学习的幕后英雄：梯度下降——如何在数据的海洋中寻找那枚失落的钥匙？”

【10月更文挑战第11天】梯度下降是机器学习和深度学习中的核心优化算法，用于最小化损失函数，找到最优参数。通过计算损失函数的梯度，算法沿着负梯度方向更新参数，逐步逼近最小值。常见的变种包括批量梯度下降、随机梯度下降和小批量梯度下降，各有优缺点。示例代码展示了如何用Python和NumPy实现简单的线性回归模型训练。掌握梯度下降有助于深入理解模型优化机制。

土木林森

27 2 2

Deephub

|

26天前

|

机器学习/深度学习数据可视化数据挖掘

机器学习中空间和时间自相关的分析：从理论基础到实践应用

空间和时间自相关是数据分析中的重要概念，揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础，并通过野火风险预测的实际案例，展示了如何利用随机森林模型捕捉时空依赖性，提高预测准确性。

Deephub

37 0 0

机器学习中空间和时间自相关的分析：从理论基础到实践应用

平凡程序猿~

|

1月前

|

机器学习/深度学习数据可视化算法

机器学习中的回归分析：理论与实践

机器学习中的回归分析：理论与实践

平凡程序猿~

47 1 1

Hoshiᅟᅠ

|

1月前

|

机器学习/深度学习数据采集算法

【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用

【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用

Hoshiᅟᅠ

37 2 2

宋晨明

|

28天前

|

机器学习/深度学习算法数据处理

EM算法对人脸数据降维(机器学习作业06)

本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库，然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维，并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。

宋晨明

29 0 0

LKIDTI数据

|

28天前

|

机器学习/深度学习数据挖掘

二、机器学习之回归模型分析

二、机器学习之回归模型分析

LKIDTI数据

93 0 0

小言从不摸鱼

|

1月前

|

机器学习/深度学习算法数据建模

【机器学习】类别不平衡数据的处理

【机器学习】类别不平衡数据的处理

小言从不摸鱼

70 0 0

热门文章

最新文章

阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023

【AAAI 2024】再创佳绩！阿里云人工智能平台PAI多篇论文入选

阿里云人工智能平台PAI多篇论文入选EMNLP 2023

机器学习-异常检测算法（二）：Local Outlier Factor

【机器学习基础】机器学习的模型评估（评估方法及性能度量原理及主要公式）

交叉验证和超参数调整:如何优化你的机器学习模型（上）

【DSW Gallery】PAI-DSW开通及授权

吐血整理：机器学习的30个基本概念，都在这里了（手绘图解）

阿里文娱测试实战：机器学习+基于热度链路推荐的引流，让对比测试更精准

写给人类的机器学习翻译完成

深度学习500问——Chapter02：机器学习基础（5）

深度学习500问——Chapter02：机器学习基础（2）

深度学习500问——Chapter02：机器学习基础（1）

【机器学习】样本、特征、标签：构建智能模型的三大基石

【机器学习】包裹式特征选择之基于模型的特征选择法

利用机器学习优化数据中心的能源效率

利用机器学习优化数据中心的能源效率

构建高效机器学习模型的策略与实践

利用机器学习算法改善电商推荐系统的效率

构建高效机器学习模型的策略与实践

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

机器学习及人机交互实战

相关实验场景

更多

推荐系统入门之使用ALS算法实现打分预测

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

使用PAI-快速开始，低代码实现大语言模型微调和部署

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

下一篇

无影云桌面