PCA线性降维 与 自编码器(Auto-Encoder )

简介: 本分分享了关于学习参考多篇博客PCA降维算法,自编码神经网络算法的原理后总结的个人理解,以供参考学习

线性降维与非线性降维

降维是一种减少特征空间维度以获得稳定的、统计上可靠的机器学习模型的技术。降维主要有两种途径:特征选择和特征变换。特征选择通过选择重要程度最高的若干特征,移除共性的或者重要程度较低的特征。

特征变换也称为特征提取,过程在于试图将高维数据投影到低维空间。常用的特征变换方法有主成分分析(PCA)、矩阵分解、自动编码器(Autoencoders)、t-Sne、UMAP等。

PCA和LDA是最常见的线性降维方法,它们按照某种准则为数据集寻找投影空间,空间变换满足 $z_i = Wx_i + b$ 的线性变换。
非线性降维的两类代表方法是流形降维和 AutoEncoders,这两类方法也体现出了两种不同角度的“非线性”。AutoEncoders的非线性和神经网络的非线性是一回事,都是利用堆叠非线性激活函数来近似任意函数。所以 Auto-Encoders 就是一种神经网络,通过基于输入与输出的近似来训练网络参数,它真正有意义的地方不在于Auto-Encoders 的输出结果,而是于训练出来的函数$h(x)$。

1、ML-PCA

对PCA的推导一般是基于最小化重建误差或者最大化可分性,或者说是通过提取数据集特征信息来建模一个约束最优化问题来推导的。
![ML:PCA]

2、NPL-Auto-Encoder

自动编码器是一种无监督的人工神经网络,它将数据压缩到较低的维数,然后重新构造输入。自动编码器通过消除重要特征上的噪声和冗余,找到数据在较低维度的表征。它基于 编解码结构(encode-decode),编码器将高维数据编码到低维,解码器接收低维数据并尝试重建原始高维数据。根据激活函数的不同,数据从高纬度到低纬度的映射可以是线性的,也可以是非线性的。所以可以对相对复杂的非线性关系进行建模,抽取这些复杂特征来表征对象。

自编码器的一些特点:

  • 它是一种类似于 PCA 的无监督机器学习算法
  • 它要最小化和 PCA 一样的目标函数
  • 这种神经网络的目标输出就是其输入

![NPL: Auto-Encoder]

3、PCA. VS . Auto-Encoder

>

  • PCA 只能做线性变换;而自动编码器既可以做线性变换,也可以做非线性变换。
  • PCA 将数据投影到若干正交的方向;而自动编码器降维后数据维度并不一定是正交的。
  • PCA 是输入空间向最大变化方向的简单线性变换;而自动编码器是一种更复杂的技术,可以对相对复杂的非线性关系进行建模。
  • PCA 适用于数据量较小的场景;而自动编码器可以用于复杂的大型数据集。

    添加非线性激活函数的自动编码器能够捕获到数据集的 非线性特征 来表征复杂数据结构,在低维空间上能够更准确的反映数据的分布。


Reference

(概率)PCA和(变分)自编码器 - 知乎 (zhihu.com)
降维算法:主成分分析 VS 自动编码器_机器学习:使用自编码器进行降维示例_deephub的博客-CSDN博客
自编码器如何应用到分类任务特征提取中
自编码AutoEncoder 及PyTorch 实现

目录
相关文章
|
JSON 安全 关系型数据库
MySQL 7.0 功能特性
MySQL 是一款广泛应用于各种 Web 应用程序和企业级系统的关系型数据库管理系统。MySQL 7.0 是 MySQL 数据库的一个重要版本,引入了许多令人兴奋的功能特性,提升了性能、安全性和可用性。本篇博客将介绍 MySQL 7.0 的一些主要功能特性。
420 0
|
机器学习/深度学习 Python
【机器学习】包裹式特征选择之递归特征消除法
【机器学习】包裹式特征选择之递归特征消除法
2060 4
|
传感器 数据采集 机器学习/深度学习
利用Auto-Encoder技术去除传感器噪声,提高预测准确性
利用Auto-Encoder技术去除传感器噪声,提高预测准确性
|
机器学习/深度学习 人工智能 自然语言处理
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
在优化和决策过程中,不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。 在任何基于人工智能的系统中,以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性,这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色
3601 0
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
|
机器学习/深度学习 资源调度 自然语言处理
长短时记忆网络(LSTM)完整实战:从理论到PyTorch实战演示
长短时记忆网络(LSTM)完整实战:从理论到PyTorch实战演示
18230 0
|
传感器 资源调度 Shell
遥感物理基础(2)物体的发射与反射辐射特征
本文内容主要介绍地物的发射和反射辐射特征,通过名词解释与案例,认识地物特征与遥感影像成像的联系,结合实践理解晦涩难懂的原理
1157 0
|
前端开发
[巨详细]使用HBuilder-X新建uniapp项目教程
【6月更文挑战第6天】安装HBuilder-X 详细步骤可看上文》》 启动uniapp项目 先打开HBuilder-X
860 5
|
人工智能 JavaScript 开发工具
【完全免费】VS Code 最好用的 12 款 AI 代码提示插件!!!
🎉 探索12款免费VSCode AI代码提示插件:Codeium、Codegeex、CodeFuse、TONGYI Lingma、Comate、iFlyCode、Fitten Code、Bito AI、Mintlify Doc Writer、Kodezi AI、aiXcoder、IntelliCode。这些插件提供智能补全、代码生成、注释、优化,支持多种语言,提升编程效率!🚀👩‍💻👨‍💻
18216 0
|
机器学习/深度学习 存储 算法
长短时记忆网络(LSTM)在序列数据处理中的优缺点分析
长短时记忆网络(LSTM)在序列数据处理中的优缺点分析
2008 1
长短时记忆网络(LSTM)在序列数据处理中的优缺点分析
|
存储 NoSQL 搜索推荐
Docker搭建Neo4j图数据库
Docker搭建Neo4j图数据库
520 0