Python用稀疏、高斯随机投影和主成分分析PCA对MNIST手写数字数据进行降维可视化

简介: Python用稀疏、高斯随机投影和主成分分析PCA对MNIST手写数字数据进行降维可视化

降维是在我们处理包含过多特征数据的大型数据集时使用的,提高计算速度,减少模型大小,并以更好的方式将巨大的数据集可视化。这种方法的目的是保留最重要的数据,同时删除大部分的特征数据。

在这个教程中,我们将简要地学习如何用Python中的稀疏和高斯随机投影以及PCA方法来减少数据维度。读完本教程后,你将学会如何通过使用这些方法来降低数据集的维度。本教程包括。

  • 准备数据
  • 高斯随机投影
  • 稀疏随机投影
  • PCA投影
  • MNIST数据投射

我们将从加载所需的库和函数开始。

准备数据

首先,我们将为本教程生成简单的随机数据。在这里,我们使用具有1000个特征的数据集。为了将维度方法应用于真实数据集,我们还使用Keras API的MNIST手写数字数据库。MNIST是三维数据集,这里我们将把它重塑为二维的。

print(x.shape)

mnist.load_data()
print(x_train.shape)

reshape(x_train,)
print(x_mnist.shape)

高斯随机投影

高斯随机法将原始输入空间投射到一个随机生成的矩阵上降低维度。我们通过设置分量数字来定义该模型。在这里,我们将把特征数据从1000缩减到200。

grp.fit_transform(x)
 
print(gshape)

根据你的分析和目标数据,你可以设置你的目标成分。

稀疏随机投影

稀疏随机方法使用稀疏随机矩阵投影原始输入空间以减少维度。我们定义模型,设置成分的数量。在这里,我们将把特征数据从1000缩减到200。

srp\_data = srp.fit\_transform(x)
 
print(srp_data.shape)

根据你的分析和目标数据,你可以设置你的目标成分。

PCA投影

我们将使用PCA分解,通过设置成分数来定义模型。在这里,我们将把特征数据从1000缩减到200。

pca.fit_transform(x)
 
print(pca_data.shape)

根据你的分析和目标数据,你可以设置你的目标成分。

MNIST数据的投影

在使用高斯、稀疏随机和PCA方法学习降维后,现在我们可以将这些方法应用于MNIST数据集。为测试目的,我们将设置2个成分并应用投影。

#对2个成分的稀疏随机投影
srp.fit\_transform(x\_mnist)
df_srp\["comp1"\] = z\[:,0)
df_srp\["comp2"\] = z\[:,1\] 。
# 高斯随机投射在2个成分上
fit\_transform(x\_mnist)
# 对2个成分进行PCA
PCA(n=2)
我们将通过可视化的方式在图中检查关于预测的结果。
``````
sns.scatterplot(x="comp-1", y="comp-2")

该图显示了MNIST数据的变化维度。颜色定义了目标数字和它们的特征数据在图中的位置。

在本教程中,我们已经简单了解了如何用稀疏和高斯随机投影方法以及Python中的PCA方法来减少数据维度。


相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
17 1
|
1天前
|
机器学习/深度学习 算法 数据挖掘
数据分享|Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
数据分享|Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
|
2天前
|
数据采集 关系型数据库 BI
Python路面平整度检测车辆数据——速度修正
Python路面平整度检测车辆数据——速度修正
|
2天前
|
机器学习/深度学习 数据采集 自然语言处理
数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型
数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
python用回归、arima、随机森林、GARCH模型分析国债期货波动性、收益率、价格预测
python用回归、arima、随机森林、GARCH模型分析国债期货波动性、收益率、价格预测
10 1
|
3天前
|
机器学习/深度学习 PyTorch TensorFlow
TensorFlow、Keras 和 Python 构建神经网络分析鸢尾花iris数据集|代码数据分享
TensorFlow、Keras 和 Python 构建神经网络分析鸢尾花iris数据集|代码数据分享
14 0
|
4天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
15 0
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
数据分享|PYTHON可视化探索新冠疫情病毒与失业率是否存在线性关系
数据分享|PYTHON可视化探索新冠疫情病毒与失业率是否存在线性关系
11 0
|
4天前
|
JSON 数据挖掘 数据库
Python复合型数据避坑指南
Python复合型数据避坑指南
13 3
|
4天前
|
数据采集 存储 人工智能
Python采集数据保存CSV文件内容乱码解决
Python采集数据保存CSV文件内容乱码解决
19 1