深度学习基础知识扫盲(3)

简介: 信息增益(Information Gain)P96熵的减少/减少杂质/增大纯度称为信息增益。在构建决策树中,如何选择特征先后?如何停止构建树?

深度学习基础知识扫盲(2): https://developer.aliyun.com/article/1390827?spm=a2c6h.13148508.setting.23.23294f0eE2pG4w

信息增益(Information Gain)

P96

熵的减少/减少杂质/增大纯度称为信息增益。

在构建决策树中,如何选择特征先后?如何停止构建树?

根据信息增益的大小,信息增益越大,越先选择这个特征,当信息增益特别小时,就不在构建树。

下图是分类问题构建决策树,优先构建0.28


44b618c3a560432fa858ecb3f39c747f.png

下图是决策树对回归问题的泛化:


52f45645b29b4a858297563fed030fda.png

one-hot enconding

适用于决策树的一种编码方式 。通过将特征设置为0、1,来构建决策数。


94276f48c51148578d92b6cc295c6b6f.png

置换抽样(Sampling with replacement)

有放回的随机抽样。

随机森林算法(random forest algorithm)

假如有n个特征,随机选取k = 根号n个特征,根据k个特征,构建决策树模型,这样构建出多个决策树模型,叫做随机森林。

clustering(聚类)

聚类属于无监督算法,目的是在无规则的数据中,找出隐藏的联系,然后将数据分类,但是我们并不知道分类的结果对不对。

K-means algorithm(K-均值算法)

聚类的典型算法之一,算法的主要思想:

1.随机选取k个点,作为k个聚簇的质心,分别计算每个数据到该质心的距离

2.重新把数据分配到距离他们最近的质心,根据重新的分组,计算每个聚簇的新质心。

3.重复上面两步骤。


43cd069f42754eaabef9bfae7f21de4f.png

K-means 的成本函数,又叫失真函数。


3451944aaeaa4d86b2a121add7d1ff83.png

Elbow method:选择合适的集群的一种方法


1e93357c1ed7458b9d8ffc69b615028f.png

Anomaly Detection algorithm(异常检测)

通过数据集把正常的数据,控制在一个范围,超过这个范围的数据,就有可能产生问题,我们就需要注意一下,对该数据进行更加细致的检测。

如下图,绿色数据,就是异常的数据,需要对它特殊检测。


e4283b7585b4428aad95c98bc98f414a.png


1b1ba3eaf6cb4e6db1c1756842b006c5.png

使用Gussian分布来构建异常检测系统:


3cb852e80b384fbe8663a8ce7f879e68.png


如何对异常检测算法进行评估:


d6be14252b31415488e44be426376f8f.png

recommend system

推荐系统:类似于购物网站、电影网站的推荐界面。

如何使用推荐系统预测参数呢?


image.png

推荐系统的单用户cost function:


4b71dd046b144be9924d37c2986b864b.png

推荐系统的所有用户之和的cost function:


image.png

Collaborative filtering(协同过滤算法)

从多个用户来收集数据,用户之间的这种协作可以帮助您预测未来甚至其他用户的评分

用已知的数据,对推荐系统的w,b,x一起学习。

以下为成本函数:


image.png

此时梯度下降:x也是一个参数


image.png

将回归问题推广到二进制标签的分类问题。


image.png

Mean Normalization (均值归一化)

Content-based filtering(基于内容的过滤算法)VS协同过滤算法


448f52f5e0ee473da8d005ac50d77a0d.png

Principal Components Analysis(PCA)(主成成分分析)

当特征太多时,几十、上百、上千个特征时,我们可以利用PCA来减少特征至2-3个,从而可以绘图分析数据。

强化学习(Reinforcement Learning )

强化学习通过类似于奖励机制的算法,走对了加分,走错了减分,来让机器自动学习一套比较完美的行为。

回报(Return)

获得奖励的效率。获得奖励越早,回报越高。

折扣因子


dbc342d31867425d9991ae475a784e09.png

获得奖励越晚,折扣因子的作用越明显。

Policy(控制器/决策)

用来决定做什么决策的算法。

c08fe3e28e424924bc7ae1c42bc7d516.png

Markov Decision Process(MDP)

对未来的决策只取决于当前状态而不取决于当前状态之前的任何环境;只关注你现在的状态,而不关注你是如何到达这里的。

QSA(action-value function)

用来描述当前动作价值的函数。


1965d3ebf51347d6bcdda201514a8b74.png

Bellman Equation(贝尔曼方程)


d14d1451e5db4104a3c5a41c17ffe119.png

c46d4850ed5d4d8c9a3249e700da9ec2.png


增加了控制概率(失步概率)的贝尔曼模型:


39c6f390f32e4e5c894c4ad56f466f98.png

详细学习参考:吴恩达老师的机器学习课程视频。


目录
相关文章
|
12月前
|
机器学习/深度学习 自然语言处理 算法
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
4367 0
|
5月前
|
机器学习/深度学习 算法
深度学习基础知识扫盲(2)
Training Set/ Validation Set/ Test Set 训练集:用来训练w,b的参数。生成w,b。 交叉验证集、开发集、验证集:用来选择具体的模型。生成d。 测试集:要有泛化评估能力,不能参与参数生成。
159 0
|
5月前
|
机器学习/深度学习 算法 搜索推荐
深度学习基础知识扫盲(1)
监督学习(Supervised learning) 计算机通过示例进行学习,它从过去的数据进行学习,并将学习结果应用到当前数据中,以预测未来事件,在这种情况下,输入和期望的输出数据都有助于预测未来事件。
170 0
|
机器学习/深度学习 人工智能 数据挖掘
【人工智能】45测试深度学习基础知识的数据科学家的问题(以及解决方案)(下)
【人工智能】45测试深度学习基础知识的数据科学家的问题(以及解决方案
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】45测试深度学习基础知识的数据科学家的问题(以及解决方案)(上)
【人工智能】45测试深度学习基础知识的数据科学家的问题(以及解决方案)
|
机器学习/深度学习 Python
使用Anaconda运行深度学习基础知识
使用Anaconda运行深度学习基础知识
126 0
使用Anaconda运行深度学习基础知识
|
机器学习/深度学习 人工智能 自然语言处理
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
深度学习(Deep Learning, DL)或阶层学习(hierarchical learning)是机器学习的技术和研究领域之一,通过建立具有阶层结构的人工神经网络(Artifitial Neural Networks, ANNs),在计算系统中实现人工智能 。由于阶层ANN能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习(representation learning)能力 ,可以实现端到端的监督学习和非监督学习 。此外,深度学习也可参与构建强化学习(reinforcement learning)系统,形成深度强化学习 。
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
|
机器学习/深度学习 算法 程序员
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
|
机器学习/深度学习 人工智能 自然语言处理
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
|
5天前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。
下一篇
无影云桌面