吴恩达《机器学习》课程总结(14)降维

简介: 14.1动机一:数据压缩将特征进行降维,如将相关的二维降到一维:三维变二维:以此类推把1000维数据降成100维数据。14.2动机二:数据可视化如50个维度的数据是无法进行可视化的,使用降维的方法可以使其降到2维,然后进行可视化。

14.1动机一:数据压缩

将特征进行降维,如将相关的二维降到一维:

三维变二维:

以此类推把1000维数据降成100维数据。

14.2动机二:数据可视化

如50个维度的数据是无法进行可视化的,使用降维的方法可以使其降到2维,然后进行可视化。

降维的算法只负责减少维度,新产生的特征的意义就必须有我们自己去发现了。

14.3主成分分析问题

(1)主成分分析的问题描述:
问题是要将n维数据降至k维,目标是找到k个向量,使得总的投射误差最小。

(2)主成分分析与线性回归的比较:

二者是不同的算法,前者是最小化投影误差,后者是最小化预测误差;前者不做任何分析,后者目的是预测结果。

线性回归是垂直于轴投影,主成分分析是垂直于红线的投影。如下图所示:

(3)PCA是对新求出来的“主元”向量的重要性进行排序,根据需要去前面重要的部分,将后面的维数省略。

(4)PCA的一个优点是完全依赖数据,而不需要人为设定参数,与用户是独立的;同时这也是也可以看做缺点,因为,如果用户对数据有一定的先验知识,将无法派上用场,可能得不到想要的效果。

14.4主成分分析算法

PCA将n维减少到k维:

(1)均值归一化,即减均值除以方差;

(2)计算协方差矩阵;

(3)计算协方差矩阵的特征向量;

对于一个n x n维度的矩阵,上式中的U是一个具有与数据之间最小投影误差的方向向量构成的矩阵,只需要去前面的k个向量获得n x k维度的向量,用Ureduce表示,然后通过如下计算获得要求的新的特征向量z(i)=UTreduce*x(i)

14.5选择主成分的数量

主成分分析是减少投射的平均均方误差,训练集的方差为:

希望可以尽可能的减少二者的比值,比如希望二者的比值小于1%,选择满足这个条件的最小维度。

14.6重建的压缩表示

降维式子:

重建(即从低维回到高维):

示意图如下所示:左图是降维,右图是重建。

14.7主成分分析法的应用建议

正确使用案例:

100 x 100像素的图片,即1000维特征,采用PCA将其压缩至1000维,然后对训练集运行学习算法,在预测时,对测试集采用之前学到的Ureduce将测试集的x转换成z,再进行预测。

错误使用情况:

(1)尝试用PCA来解决过拟合,PCA是无法解决过拟合的,应该用正则化来解决。

(2)默认把PCA作为学习过程的一部分,其实应该尽量使用原始特征,只有在算法运行太慢或者占用内存太多的情况下才考虑使用主成分分析法。

 

相关文章
|
6月前
|
机器学习/深度学习 算法 数据可视化
机器学习第11天:降维
机器学习第11天:降维
|
3月前
|
机器学习/深度学习 算法 Python
【绝技揭秘】Andrew Ng 机器学习课程第十周:解锁梯度下降的神秘力量,带你飞速征服数据山峰!
【8月更文挑战第16天】Andrew Ng 的机器学习课程是学习该领域的经典资源。第十周聚焦于优化梯度下降算法以提升效率。课程涵盖不同类型的梯度下降(批量、随机及小批量)及其应用场景,介绍如何选择合适的批量大小和学习率调整策略。还介绍了动量法、RMSProp 和 Adam 优化器等高级技巧,这些方法能有效加速收敛并改善模型性能。通过实践案例展示如何使用 Python 和 NumPy 实现小批量梯度下降。
42 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 吴恩达:机器学习的六个核心算法!
吴恩达教授在《The Batch》周报中介绍了机器学习领域的六个基础算法:线性回归、逻辑回归、梯度下降、神经网络、决策树和k均值聚类。这些算法是现代AI的基石,涵盖了从简单的统计建模到复杂的深度学习。线性回归用于连续变量预测,逻辑回归用于二分类,梯度下降用于优化模型参数,神经网络处理非线性关系,决策树提供直观的分类规则,而k均值聚类则用于无监督学习中的数据分组。这些算法各有优缺点,广泛应用于经济学、金融、医学、市场营销等多个领域。通过不断学习和实践,我们可以更好地掌握这些工具,发掘智能的乐趣。
117 1
算法金 | 吴恩达:机器学习的六个核心算法!
|
5月前
|
机器学习/深度学习 API Python
机器学习特征降维
这篇内容概述了特征降维在机器学习中的重要性,包括三个主要方法:低方差过滤法、PCA(主成分分析)和相关系数法。低方差过滤法通过删除方差低于阈值的特征来减少无关信息;PCA通过正交变换降低数据的维数,保留大部分信息;相关系数法(如皮尔逊和斯皮尔曼相关系数)用于评估特征间的相关性,去除高度相关的特征以简化模型。这些技术有助于提高模型效率和泛化能力。
|
6月前
|
机器学习/深度学习 监控 算法
LabVIEW使用机器学习分类模型探索基于技能课程的学习
LabVIEW使用机器学习分类模型探索基于技能课程的学习
52 1
|
6月前
|
机器学习/深度学习 搜索推荐 数据可视化
机器学习中7种常用的线性降维技术总结
上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。
370 6
|
6月前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】数据特征选择与降维技术
【4月更文挑战第30天】本文探讨了Python中数据特征选择与降维技术在机器学习和数据分析中的应用。特征选择包括单变量选择、递归特征消除(RFE)、树模型的特征重要性和相关性分析,有助于去除冗余和无关特征。降维技术涵盖PCA、LDA以及非线性方法如KPCA和ISOMAP,用于在低维空间保留信息。这些技术能简化数据、提升模型性能及可解释性。
125 0
|
6月前
|
机器学习/深度学习 存储 算法
机器学习中的10种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。
231 4
|
6月前
|
机器学习/深度学习 人工智能 算法
机器学习的魔法(一)从零开始理解吴恩达的精炼笔记
机器学习的魔法(一)从零开始理解吴恩达的精炼笔记
|
6月前
|
机器学习/深度学习
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)

热门文章

最新文章