【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)

简介: 【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)

需要全部代码请点赞关注收藏后评论区留言私信~~~

维数灾难

维数灾难是指在涉及到向量计算的问题中,当维数增加时,空间的体积增长得很快,使得可用的数据在空间中的分布变得稀疏,向量的计算量呈指数倍增长的一种现象。维数灾难涉及数值分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。

降维不仅可以减少样本的特征数量,还可以用来解决特征冗余(是指不同特征有高度相关性)等其他数据预处理问题。可视化并探索高维数据集也是它的一个重要应用。

降维算法是专门用于降维的算法,可以分为线性和非线性的,线性的降维算法是基于线性变换来降维,主要有奇异值分解,主成分分析等算法,主成分分析是最常用的降维算法,下面我们将重点讨论它

主成分分析PCA

1:二维数据降维

顾名思义,主成分分析是指找出主要成分来代替原始数据,用二维平面上的例子来简要说明其过程

在二维平面上有x_1,x_2,x_3,x_4四个点,坐标分别是(4,2)、(0,2)、(-2,0)和(-2,-4),它们满足所谓中心化要求,即∑_i=1^4▒x_i=0。对不满足中心化要求的点,可通过减所有点的均值来满足该要求

降维必定会带来误差,如何使总体误差最小是降维算法追求的目标。用所有误差向量的模的平方之和作为损失函数来衡量降维带来的误差(类似于误差平方和损失函数SSE)。

现在要将四个点从二维降到一维,一个很自然的想法是直接去掉每个点的一个坐标,试着同步旋转X值和Y值,使得去掉Y轴上的坐标带来的损失函数最小。

只旋转不降维的输出结果如下

代码如下

from sklearn.decomposition import PCA
pca = PCA(n_components=2) # 只旋转不降维
pca.fit(x)
print("新的轴向量:")
print(pca.components_)
print("各维度投影方差占比分布:")
print(pca.explained_variance_ratio_)
print("各点在新轴上的投影:")
print(pca.transform(x))

降到一维的结果如下

代码如下

pca = PCA(n_components=1) # 降到一维
pca.fit(x)
print("新的轴向量:")
print(pca.components_)
print("各维度投影方差占比分布:")
print(pca.explained_variance_ratio_)
print("各点在新轴上的投影:")
print(pca.transform(x))

2:三维数据可视化降维

我们生成三维空间中分布的点,然后降到二维

在三维空间中生成四个簇,并查看它们的分布如下

接下来我们分布查看它们在三个面上的投影 可以看出每个面上的投影都有两个簇重叠的情况

接着用PCA对它们进行降维,共进行了三次,第一次降到一个二维的平面上,可见可以较好的分开为四个簇,第二次要求保留百分之九十的精度,第三次要求保留百分之九十九精度,此时不能降低维数,否则就达不到该要求

结果如下

部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=10000, n_features=3, centers=[[0,0,0], [1,1,0.5], [3,3,3], [2,5,10]], cluster_std=[0.3, 0.1, 0.7, 0.5])
fig = plt.figure()
ax = Axes3D(fig)
plt.scatter(X[:, 0], X[:, 1], X[:, 2], marker='+')

创作不易 觉得有帮助请点赞关注收藏~~

目录
打赏
0
1
1
0
146
分享
相关文章
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
|
12天前
|
基于 Python 哈希表算法的员工上网管理策略研究
于当下数字化办公环境而言,员工上网管理已成为企业运营管理的关键环节。企业有必要对员工的网络访问行为予以监控,以此确保信息安全并提升工作效率。在处理员工上网管理相关数据时,适宜的数据结构与算法起着举足轻重的作用。本文将深入探究哈希表这一数据结构在员工上网管理场景中的应用,并借助 Python 代码示例展开详尽阐述。
35 3
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
探秘文件共享服务之哈希表助力 Python 算法实现
在数字化时代,文件共享服务不可或缺。哈希表(散列表)通过键值对存储数据,利用哈希函数将键映射到特定位置,极大提升文件上传、下载和搜索效率。例如,在大型文件共享平台中,文件名等信息作为键,物理地址作为值存入哈希表,用户检索时快速定位文件,减少遍历时间。此外,哈希表还用于文件一致性校验,确保传输文件未被篡改。以Python代码示例展示基于哈希表的文件索引实现,模拟文件共享服务的文件索引构建与检索功能。哈希表及其分布式变体如一致性哈希算法,保障文件均匀分布和负载均衡,持续优化文件共享服务性能。
公司电脑网络监控场景下 Python 广度优先搜索算法的深度剖析
在数字化办公时代,公司电脑网络监控至关重要。广度优先搜索(BFS)算法在构建网络拓扑、检测安全威胁和优化资源分配方面发挥重要作用。通过Python代码示例展示其应用流程,助力企业提升网络安全与效率。未来,更多创新算法将融入该领域,保障企业数字化发展。
46 10
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
32 7
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
301 14

热门文章

最新文章