1统计学习及监督学习概论

简介: 笔记

1.1 统计学习


统计学习方法的步骤

得到一个有限的训练数据集合

确定学习模型的集合

确定模型选择的准则

实现求解最优模型的算法

通过学习方法选择最优模型

利用学习的最优模型对新数据进行预测或分析


1.2 统计学习方法的分类


基本分类

监督学习

无监督学习

强化学习

按模型分类

概率模型和非概率模型

线性模型和非线性模型

参数化模型和非参数化模型

按技巧分类

贝叶斯学习

核方法

按算法分类

在线学习

批量学习


1.2.1 基本分类

监督学习:


监督学习(Supervised learning) 是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律


输入空间


输入的所有可能取值的集合


实例(instance)


每一个具体的输入,通常由特征向量(Feature vector)表示


特征空间


所有特征向量存在的空间


输出空间


输出的所有可能的集合


根据变量类型的不同:


输入变量与输出变量为连续变量的预测问题 回归问题

输出变量为有限个离散变量的预测问题 分类问题

输入变量与输出变量均为变量序列的预测问题 标注问题

监督学习的基本假设:X  和 Y  具有联合概率分布 P(X,Y)


监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示


模型的形式:条件概率分布P(Y∣X)或决策函数 Y=f(X)


假设空间:所有这些可能模型的集合


监督学习的流程图:



模型的形式:条件概率分布P(Y∣X)或决策函数 Y=f(X)


假设空间:所有这些可能模型的集合


监督学习的流程图:

21.png


目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】十大算法之一 “神经网络”
神经网络是一种模拟人脑信息处理方式的算法,其通过神经元之间不断传递信息、调节连接权重等方式进行学习和预测,最终实现数据分类、识别等功能。由于神经网络算法的强大功能和广泛应用,其在过去几十年间经历了多次的发展和变革。神经网络算法是一种非常强大和广泛应用的算法,其在数据分类、预测、图像处理、自然语言处理等领域都有着非常出色的表现。神经网络算法的发展历程从原始的感知机模型到多层神经网络,再到卷积神经网络,反应了机器学习的发展过程,各个模型优点互补,使神经网络在各个领域得以深入应用。
207 0
【机器学习】十大算法之一 “神经网络”
|
机器学习/深度学习 算法
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
161 0
|
机器学习/深度学习 算法
【机器学习】十大算法之一 “随机森林”
随机森林算法(Random Forest, RF)是由Leo Breiman和Adele Cutler于2001年提出的一种集成学习(Ensemble Learning)算法。它是由多个决策树构成的分类器,通过对每个决策树的投票结果来确定最终的预测结果。随机森林算法可以用于分类和回归分析。在分类问题中,每个决策树的输出结果为一个类别标签,通过投票来确定样本所属的类别。在回归问题中,每个决策树的输出结果为一个连续值,取所有决策树输出结果的平均值作为最终结果。可以处理高维度数据;可以处理不平衡的数据集。
1256 1
【机器学习】十大算法之一 “随机森林”
|
机器学习/深度学习 自然语言处理 算法
【机器学习】十大算法之一 “朴素贝叶斯”
朴素贝叶斯算法是一种监督学习的算法,通过计算条件概率来预测或分类数据。它的核心思想是贝叶斯定理,即后验概率等于先验概率与似然函数的乘积除以证据因子。在文本分类的应用中,假设我们有一个文档和一个文档分类,我们想要判断这个文档属于哪个分类。我们可以将文档中的每个词都看作一个特征,每个特征的值为 0 或 1,0 表示该词不在文档中,1 表示该词在文档中。这样,我们就可以将每个文档表示为一个特征向量。然后,我们可以使用朴素贝叶斯算法来计算每个分类的条件概率,并选择条件概率最大的分类作为文档所属的分类。
347 0
【机器学习】十大算法之一 “朴素贝叶斯”
|
机器学习/深度学习 算法 Python
【机器学习】十大算法之一 “逻辑回归”
逻辑回归算法是一种用于分类问题的机器学习算法,其基本原理是利用线性回归模型对数据进行拟合,并通过逻辑函数对结果进行分类。逻辑回归算法的主要特点是模型简单、计算方便,并且能够处理大规模数据。我们可以将逻辑回归算法应用于二分类问题和多分类问题中,对于二分类问题,逻辑回归算法通常将数据分为两个类别,例如阴性和阳性,假和真等;而对于多分类问题,逻辑回归算法则可以将数据分为多个类别。逻辑回归算法是实现二分类和多分类问题的一种流行算法。这种算法在概率建模方面展现了良好的特性,它能够输出范围在0和1之间的标签概率值。
197 0
【机器学习】十大算法之一 “逻辑回归”
|
机器学习/深度学习 算法 数据可视化
【机器学习】十大算法之一 “决策树”
传统的机器学习算法通常是根据数据来寻找模型、寻找关于数据的规律或者说是特征,是一种第一步是给定数据,然后在学习过程中发现一个模型用来描述这些数据的算法。与此不同的是,决策树则是一种将自主变量切分成不同数据集最优方法的算法,具有易于理解、易于解释、能够处理缺失数据、可处理不连续型数据、简单性、目标变量存在非线性关系的优点,因此被广泛应用于数据挖掘、机器学习等领域。在机器学习中,决策树算法是非常重要的一种算法。通过不断地分割数据集,决策树算法可以构建一棵分类或回归树,从而实现对数据的分类或回归。
196 0
【机器学习】十大算法之一 “决策树”
|
机器学习/深度学习 人工智能 算法
【机器学习】十大算法之一 “线性回归”
机器学习是人工智能的一个重要分支,它利用各种算法和模型,通过分析和理解数据,让机器学习到一个智能模型,从而对数据作出预测和判断。回归分析是一种基于统计学方法的数学分析技术,用于描述两个或多个变量之间的关系。线性回归是一种最简单的回归分析方法,它使用最小二乘法来拟合一个关于自变量的线性函数,以预测其与因变量之间的相互作用关系。线性回归是机器学习领域中最为常见的算法之一,它是一个简单但非常有效的算法,常用于数据挖掘和机器学习的预测分析,例如房价预测、销售额预测等等。
415 0
【机器学习】十大算法之一 “线性回归”
|
机器学习/深度学习 运维 算法
【机器学习】十大算法之一 “SVM”
支持向量机(Support Vector Machine,SVM)是机器学习十大算法之一,是一种二分类模型。SVM将实例空间映射到一个高维空间,将空间进行线性划分,同时使得分类面到两端最近的数据点的距离(margin)最大化,因此SVM也被称为最大间隔分类器(Maximal Margin Classifier)。SVM是由Vapnik和Cortes于1995年提出的,是一种广泛应用的机器学习算法,具有很好的泛化能力和鲁棒性。SVM是一种非常有用的算法,它在分类和回归问题中都表现出色。
597 0
【机器学习】十大算法之一 “SVM”
|
机器学习/深度学习 自然语言处理 算法
半监督学习|深度学习(李宏毅)(九)
半监督学习|深度学习(李宏毅)(九)
549 0
半监督学习|深度学习(李宏毅)(九)
|
机器学习/深度学习 DataX C++
机器学习入门详解(一):理解监督学习中的最大似然估计
 这篇文章在统计学的背景下对机器学习学习建模过程进行了解密。将带你了解如何对数据的假设使我们能够创建有意义的优化问题。事实上,我们将推导出常用的标准,如分类中的交叉熵和回归中的均方误差。
165 0
机器学习入门详解(一):理解监督学习中的最大似然估计