《R语言数据挖掘》----1.13 数据降维

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.13 数据降维

在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现。因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务。同样,有很多方法可以用来对定性数据进行数据降维。

降低维度的目标就是通过两个或者多个比原先矩阵小很多的矩阵来取代大型矩阵,但原始矩阵可以被近似重构。通常是选取这些小矩阵的乘积来重构原始的矩阵,这一般会损失一些次要信息。

1.13.1 特征值和特征向量

一个矩阵的特征向量是指该矩阵(下述方程中的A)乘以该特征向量(下述方程中的v)的结果为一个常数乘以该特征向量。这个常数就是关于该特征向量的特征值。一个矩阵可能有好几个特征向量。
Av=λv

一个特征对就是特征向量及其特征值,也就是上式中的(v, λ)。

1.13.2 主成分分析

用于降维的主成分分析(Principal Component Analysis,PCA)技术将多维空间中的点集所构成的数据视为一个矩阵,其中行对应于点,列对应于维度。

该矩阵与其转置的乘积具有特征向量和特征值,其主特征向量可以看作空间中的方向,且沿着该方向,点排成最佳的直线。第二特征向量表示的方向使得源于主特征向量的偏差在该方向上是最大的。

主成分分析降维是通过最小化表示矩阵中给定列数的均方根误差来近似数据,用其少数的特征向量来表示矩阵中的点。

1.13.3 奇异值分解

一个矩阵的奇异值分解(Singular Value Decomposition,SVD)由以下3个矩阵构成:
U
Σ
V

U和V是列正交的,其列向量是正交的且它们的长度为1。Σ是一个对角矩阵,其对角线上的值称为奇异值。原始矩阵等于U、Σ和V的转置的乘积。

当连接原始矩阵的行和列的概念较少时,奇异值分解是有用的。

当矩阵U和V通常与原始矩阵一样大时,采用奇异值分解降维。为了使用较少列的U和V,删除U、V和Σ中与最小奇异值对应的列。这样根据修正后的U、Σ和V重构原始矩阵时就最小化了误差。

1.13.4 CUR分解

CUR分解旨在将一个稀疏矩阵分解成更小的稀疏矩阵,这些小矩阵的乘积近似于原始矩阵。

CUR从一个给定的稀疏矩阵中选择一组列构成矩阵C和一组行构成矩阵R,C和R的作用就相当于奇异值分解中的U和V?T。行与列是根据一个分布随机选择的,该分布取决于元素平方和的平方根。在矩阵C和R之间有一个方阵称为U,它是由所选择的行与列的交集的伪逆(pseudo-inverse)所构造出来的。

根据CUR解决方案,3个分量矩阵C、U和R将被检索。这3个矩阵的乘积将近似于原始矩阵M。在R社区中,有一个R添加包rCUR用于CUR矩阵分解。

相关文章
|
1天前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
10 0
|
1天前
|
自然语言处理 算法 数据挖掘
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
13 0
|
2天前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
29 8
|
2天前
|
机器学习/深度学习
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
10 0
|
2天前
|
数据采集 数据可视化 定位技术
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
12 0
|
2天前
|
机器学习/深度学习 前端开发 数据挖掘
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
36 0
|
2天前
|
存储 数据可视化 数据挖掘
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
13 0
|
2天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
22 0
|
2天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
26 0