机器学习:数据降维特征选择和主成分分析PCA

简介: 机器学习:数据降维特征选择和主成分分析PCA

数组维度

数据维度:特征数量

特征选择和主成分分析使用:

  • 特征选择 特征较少时使用
  • 主成分分析 特征有上百个

1、特征选择

主要方法:

Filter 过滤式 (方差variance)

Embedded 嵌入式(正则化,决策时)

Wrapper 包裹式

神经网络

代码示例

from sklearn.feature_selection import VarianceThreshold
# 特征选择-删除低方差的特征
data = [
    [0, 2, 0, 3],
    [0, 1, 4, 3],
    [0, 1, 1, 3]
]
var = VarianceThreshold(threshold=0.0)
result = var.fit_transform(data)
print(result)
"""
[[2 0]
 [1 4]
 [1 1]]
"""

2、主成分分析PCA

PCA(principal Component Analysis)

二维表示一个立体物体

特征选择的原因

冗余:部分特征的相关度高,容易消耗计算资源

噪声:部分特征对预测结果有影响

本质:一种分析,简化数据集的技术

目的:使数据维数压缩,竟可能降低元数据的维数(复杂度),损失少量信息

作用:可以削减回归分析或者聚类分析中特征的数量

场景:特征数量达到上百的时候,考虑数据简化

代码示例

from sklearn.decomposition import PCA
data = [
    [2, 8, 4, 5],
    [6, 3, 0, 8],
    [5, 4, 9, 1]
]
# n_components取小数:保留百分比,取整数:保留特征个数
pca = PCA(n_components=0.9)
result = pca.fit_transform(data)
print(result)
"""
[[-3.13587302e-16  3.82970843e+00]
 [-5.74456265e+00 -1.91485422e+00]
 [ 5.74456265e+00 -1.91485422e+00]]
"""


相关文章
|
算法 小程序 大数据
健康码是怎样识别你"绿"了?-健康码的前世今生
健康码是怎样识别你"绿"了?-健康码的前世今生
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
1881 0
|
存储 缓存 监控
数据库优化技术:提升性能与效率的关键策略
【10月更文挑战第15天】数据库优化技术:提升性能与效率的关键策略
354 8
|
机器学习/深度学习 负载均衡 算法
深入探索Linux内核调度机制的优化策略###
本文旨在为读者揭开Linux操作系统中至关重要的一环——CPU调度机制的神秘面纱。通过深入浅出地解析其工作原理,并探讨一系列创新优化策略,本文不仅增强了技术爱好者的理论知识,更为系统管理员和软件开发者提供了实用的性能调优指南,旨在促进系统的高效运行与资源利用最大化。 ###
|
存储 监控 数据中心
|
缓存 监控 数据库
接口性能飞跃:一次成功的优化实践
在软件开发中,接口性能优化是一个永恒的话题。一个高效的接口不仅能提升用户体验,还能减轻服务器压力,降低运营成本。本文将分享一次成功的接口优化案例,从问题诊断到解决方案实施,详细介绍我们的优化过程。
245 0
|
机器学习/深度学习 算法框架/工具 计算机视觉
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【8月更文挑战第28天】本文深入探讨了深度学习领域中的一个核心概念——卷积神经网络(CNN),并详细解释了其在图像识别任务中的强大应用。从CNN的基本结构出发,我们逐步展开对其工作原理的解析,并通过实际代码示例,展示如何利用CNN进行有效的图像处理和识别。文章旨在为初学者提供一个清晰的学习路径,同时也为有经验的开发者提供一些深入的见解和应用技巧。
446 1
|
监控 安全 物联网
智能家居系统的安全与隐私保护技术
随着物联网技术的飞速发展,智能家居系统逐渐进入千家万户。然而,随之而来的安全与隐私问题亦日益凸显。本文将探讨智能家居系统中存在的安全风险,分析当前采用的主要安全技术措施,并指出用户在享受智能生活时需注意的隐私保护策略。通过深入浅出的方式,旨在增强大众对智能家居安全的认识,并提供实用的保护建议。
|
机器学习/深度学习 算法 前端开发
决策树与随机森林算法在分类问题中的应用
本文探讨了决策树和随机森林两种监督学习算法,它们在分类任务中表现出强大的解释性和预测能力。决策树通过特征测试进行分类,构建涉及特征选择、树生成和剪枝。随机森林是集成学习方法,通过构建多棵决策树并汇总预测结果,防止过拟合。文中提供了Python代码示例,展示如何使用sklearn构建和应用这些模型,并讨论了参数调优和模型评估方法,如交叉验证和混淆矩阵。最后,强调了在实际问题中灵活选择和调整模型参数的重要性。
628 4
|
并行计算 API 异构计算
JAX 中文文档(十六)(3)
JAX 中文文档(十六)
369 0

热门文章

最新文章