机器学习第11天:降维

简介: 机器学习第11天:降维



机器学习专栏

机器学习_Nowl的博客

主要思想

介绍:当一个任务有很多特征时,我们找到最主要的,剔除不重要的

主流方法

1.投影

投影是指找到一个比当前维度低的维度面(或线),这个维度面或线离当前所有点的距离最小,然后将当前维度投射到小维度上

二维投射到一维

三维投射到二维

2.流形学习

当然,当数据集投影后在低纬度上有重叠的时候,我们应该考虑别的方法

我们来看看被称为瑞士卷数据集的三维图

经过两种降维数据的处理,我们得到下面两幅二维数据可视化图

我们可以看到,左边的数据 有很多重合的点,它使用的是投影技术,而右图就像将数据集一层层展开一样,这就是流形学习

我们接下来介绍三种常见的具体实现这些的降维方法

一、PCA主成分分析

介绍

pca主成分分析是一种投影降维方法

PCA主成分分析的思想就是:识别最靠近数据的超平面,然后将数据投影到上面

代码

这是一个最简单的示例,有一个两行三列的特征表x,我们将它降维到2个特征(n_components参数决定维度)

from sklearn.decomposition import PCA
 
 
x = [[1, 2, 3], [3, 4, 5]]
 
pca = PCA(n_components=2)
x2d = pca.fit_transform(x)
 
print(x)
print(x2d)

运行结果

二、三内核PCA

内核可以将实例隐式地映射到高维空间,这有利于模型寻找到数据的特征(维度过低往往可能欠拟合),其他的思想与PCA相同

具体代码

1.线性内核

特点: 线性核对原始特征空间进行线性映射,相当于没有映射,直接在原始空间上进行PCA。适用于数据在原始空间中是线性可分的情况。

import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA
 
# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
 
# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='linear', gamma=0.1)
X_kpca = kpca.fit_transform(X)
 
# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

2.rbf内核

特点: RBF核是一种常用的非线性核函数,它对数据进行非线性映射,将数据映射到高维空间,使得在高维空间中更容易分离。gamma参数控制了映射的“尺度”或“平滑度”,较小的gamma值导致较远的点对结果有较大的贡献,产生更平滑的映射,而较大的gamma值使得映射更加局部化。

import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA
 
# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
 
# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='rbf', gamma=0.04)
X_kpca = kpca.fit_transform(X)
 
# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

3.sigmoid内核

特点: Sigmoid核也是一种非线性核函数,它在数据上执行类似于双曲正切(tanh)的非线性映射。它对数据进行映射,使其更容易在高维空间中分离。gamma参数和coef0参数分别控制了核函数的尺度和偏置。

import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA
 
# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
 
# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='sigmoid', gamma=0.04)
X_kpca = kpca.fit_transform(X)
 
# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

三、LLE

局部线性嵌入(Locally Linear Embedding,LLE)是一种非线性降维算法,用于保留数据流形结构。

以下是使用LLE展开瑞士卷数据集的代码

import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding
 
# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
 
# 使用LLE将数据降为二维
lle = LocallyLinearEmbedding(n_neighbors=12, n_components=2, random_state=42)
X_lle = lle.fit_transform(X)
 
# 可视化降维后的数据
plt.scatter(X_lle[:, 0], X_lle[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('LLE of Swiss Roll Dataset')
plt.show()

结语

降维的方法不止这几种,重要的是我们要理解为什么要降维——减少不重要的特征,同时也能加快模型的训练速度

感谢阅读,觉得有用的话就订阅下本专栏吧

相关文章
|
6月前
|
机器学习/深度学习 算法 数据可视化
Python | 机器学习之PCA降维
Python | 机器学习之PCA降维
77 0
|
5月前
|
机器学习/深度学习 API Python
机器学习特征降维
这篇内容概述了特征降维在机器学习中的重要性,包括三个主要方法:低方差过滤法、PCA(主成分分析)和相关系数法。低方差过滤法通过删除方差低于阈值的特征来减少无关信息;PCA通过正交变换降低数据的维数,保留大部分信息;相关系数法(如皮尔逊和斯皮尔曼相关系数)用于评估特征间的相关性,去除高度相关的特征以简化模型。这些技术有助于提高模型效率和泛化能力。
|
6月前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】数据特征选择与降维技术
【4月更文挑战第30天】本文探讨了Python中数据特征选择与降维技术在机器学习和数据分析中的应用。特征选择包括单变量选择、递归特征消除(RFE)、树模型的特征重要性和相关性分析,有助于去除冗余和无关特征。降维技术涵盖PCA、LDA以及非线性方法如KPCA和ISOMAP,用于在低维空间保留信息。这些技术能简化数据、提升模型性能及可解释性。
124 0
|
6月前
|
机器学习/深度学习 搜索推荐 数据可视化
机器学习中7种常用的线性降维技术总结
上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。
325 6
|
6月前
|
机器学习/深度学习 存储 算法
机器学习中的10种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。
226 4
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习降维技术全面对比评析
机器学习降维技术全面对比评析
141 1
|
6月前
|
机器学习/深度学习 数据采集 算法
【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)
【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)
223 1
|
机器学习/深度学习 算法 数据可视化
机器学习面试笔试之特征工程、优化方法、降维、模型评估2
机器学习面试笔试之特征工程、优化方法、降维、模型评估
113 0
|
机器学习/深度学习 存储 算法
机器学习面试笔试之特征工程、优化方法、降维、模型评估1
机器学习面试笔试之特征工程、优化方法、降维、模型评估
157 0
|
机器学习/深度学习 API Python
机器学习特征降维2
机器学习特征降维2
58 0