【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)

简介: 【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)

一、机器学习算法术语

1)数据集(Data Set),训练集(Training Set),验证集(Validation Set)和测试集(Test Set)

数据集分为训练数据和测试数据。测试数据集合即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。

2)实例(instance),属性(Attribute),特征(Feature),特征值(Feature Value)和特征向量(Feature vector)

实例是一个完整的训练或测试数据,如一张图片、一段文本句子、一条音频等。实例有一般多个属性,因此用多维的向量来表示它,并用粗体的小写字母来标记,如x_i,下标i表示实例的序号。

传统机器学习算法一般不直接对实例的属性进行处理,而是对从属性中提炼出来的特征进行处理。实例通常是由多个特征值组成的特征向量来表示。用特征向量来表示实例时,也用x_i表示。用带括号的上标来区分实例的不同特征,如x_i^(j)表示第i个实例的第j维特征。有m个特征的第i个实例可表示为x_i={x_i^(1),x_i^(2),…,x_i^(m)}。

3)标签(Label)和样本(Sample)

在监督学习中,训练数据不仅包括实例,还包括事先标记好的标签。在分类、聚类和标注模型中,标签是离散编号值,在回归模型中,标签是连续值。对训练数据来说,标签是指导训练的结论,对测试集来说,标签是要预测的目标。

在分类、聚类和回归任务中,标签值一般是一维的标量,一般用y_i表示。在标注任务中,标签值是一个序列,可看成是向量,一般用粗体y_i表示。测试集中的数据只包括实例,标签是需要预测的,在分类、聚类和回归任务中用y ̂_i来表示待预测的标签值,在标注任务中用粗体y ̂_i来表示待预测的标签序列。

样本是一份可用来训练的完整数据。在监督学习中,样本由实例及其标签组成,用s_i=(x_i,y_i)或s_i=(x_i,y_i)表示第i个样本,而实例x_i也称为未标记的样本。在无监督学习中,样本没有标签,可直接用实例表示,即:s_i=x_i。

二、机器学习模型实现算法分类

设样本集S={s_1,s_2,…,s_m}包含m个样本。

对分类和回归任务来说,每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i,实例由n维特征向量表示,即x_i=(x_i^(1),x_i^(2),…,x_i^(n))。

对聚类任务来说,样本即实例,不包括标签,s_i=x_i=(x_i^(1),x_i^(2),…,x_i^(n))。

对标注任务来说,样本s_i=(x_i,y_i)包括一个观测序列x_i=(x_i^(1),x_i^(2),…,x_i^(n))和一个标签序列y_i=(y_i^(1),y_i^(2),…,y_i^(n))。

1:决策函数模型

决策函数模型是将实例x=(x^(1),x^(2),…,x^(n))与标签y之间的关系看作一种映射,用函数Y=f(X)来表示,X是定义域,它是所有实例特征向量的集合,Y是值域R。

在分类、聚类和回归任务中,模型从样本集中学习到该映射,并依据该映射对测试样本x给出预测值y,用y=f(x)表示。在分类任务中,标签是预先确定的有限个离散值,因此该映射是从实例特征向量集合到有限个离散的映射。在回归任务中,标签是无限多的连续值,因此该映射是从实例特征向量集合到连续值的映射。在聚类任务中,训练之前标签是不确定的(有的算法事先要指定标签的数量),需要算法在训练过程中分析训练样本的分布情况并建立簇结构,从而建立映射关系,依据映射关系给簇内样本分配标签。

常用的决策函数分类模型有决策树、随机森林、逻辑回归、Softmax回归、支持向量机等模型。

常用的决策函数聚类模型有k均值、DBSCAN、AGNES等模型。

常用的决策函数回归模型有决策树、线性回归、多项式回归、局部回归、支持向量机等模型。

2:概率模型

在概率模型中,将实例x=(x^(1),x^(2),…,x^(n))与标签y看作是两个随机变量的取值,随机变量记为X和Y。

机器学习算法能够有效的前提是假设同类数据(包括训练数据和测试数据等)具有相同的统计规律性。

对监督学习来说,假设输入的随机变量X和输出的随机变量Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布概率函数。模型的训练集和测试集被看作是依联合概率分布P(X,Y)独立同分布产生的。

对无监督学习来说,假设输入的随机变量X服从概率分布P(X),模型的训练集和测试集是依P(X)独立同分布产生。

聚类任务的输入是无标签的样本,算法要自行分析样本数据的分布结构形成由条件概率表述的模型P ̂(Y|X),并对测试样本x给出预测簇标签y ̂。有些聚类算法的标签值个数是超参数,要由用户事先指定。有些聚类算法则可以自行确定标签值个数。常用的概率聚类模型有高斯混合聚类模型。

在分类任务中,用条件概率分布函数P ̂(Y|X)来描述从输入到输出的概率映射关系,在训练时,算法要从训练数据中学习到该分布函数。在预测时,对测试样本x,模型计算所有候选标签y的条件概率P ̂(y|x),取最大值对应的y为测试样本x的预测标签值y ̂。常用的概率分类模型有朴素贝叶斯模型、逻辑回归模型。

在标注任务中,输入的x=(x^(1),x^(2),…,x^(n))表示一个可观测的序列,该序列的元素存在一定的关联关系。像天气温度、股票价格、语音数据等,可以看作向后单向关联关系的序列。而像文字句子,句子中的字一般与上文、下文双向语境都有关。

标注任务的输出是与x对应的标签序列y=(y^(1),y^(2),…,y^(n)),标签取值于标签值空间。标签值空间一般远小于观测值空间。也就是说,标注模型输出的也是一个序列,它与输入序列等长。

在训练时,算法要学习到从序列x到序列y的条件概率P ̂(y^(1),y^(2),…,y^(n)|x^(1),x^(2),…,x^(n))。在预测时,按照该条件概率模型以概率最大的方式对新的输入序列找到相应的输出标签序列。具体来讲,就是对一个输入序列x=(x^(1),x^(2),…,x^(n))找到使条件概率P ̂(y^(1),y^(2),…,y^(n)|x^(1),x^(2),…,x^(n))最大的标记序列y ̂=(y ̂^(1),y ̂^(2),…,y ̂^(n))。

常用的概率标注模型有隐马尔可夫模型、条件随机场模型等。

概率模型又可以分为生成模型(generative model)和判别模型(discriminative model)。

生成模型学习到的是联合概率分布P(X,Y),然后由联合概率分布求出条件概率分布作为预测模型: P(Y|X)=P(X,Y)/P(X)

判别模型直接学习到条件概率分布P(Y|X)作为预测模型。

生成模型是所有特征以及标签的全概率模型,它学习到了全面的信息,可以计算出任意给定条件下的概率值,因此可以用到多方面概率预测问题上。而判别模型针对性强,直接面对问题,模型的适应性有限。

3.神经网络模型

人工神经网络(Artificial Neural Network,ANN)简称神经网络(NN),是一种模仿脑结构及其功能的信息处理系统。神经网络在机器学习的分类、聚类、回归和标注任务中都有重要作用。

人工神经元(简称神经元)是神经网络的基本组成单元,它是对生物神经元的模拟、抽象和简化。现代神经生物学的研究表明,生物神经元是由细胞体、树突和轴突组成的。通常一个神经元包含一个细胞体和一条轴突,但有一个至多个树突。

受生物神经元对信息处理过程的启迪,人们提出了很多人工神经元模型,其中影响最大的是1943年心理学家McCulloch和数学家W.Pitts提出的M-P模型。

x^(i)表示来自其它神经元的输入信息,i=1,2,…,n。w^(i)表示输入信息对应的连接系数值。∑表示对输入信息进行加权求和。θ是一个阈值,模拟生物神经元的兴奋“限度”。输入信息经过加权求和后,与阈值进行比对,再通过一个映射,得到输出y。

f(∙)称为激励函数或转移函数,它一般采用非线性函数。

就M-P模型而言,神经元只有兴奋和抑制两种状态,因此,它的激励函数f(∙)定义为单位阶跃函数,输出y只有0和1两种信号。

单位阶跃函数u(∙)不连续,在优化计算时难以处理,常用近似的阈值函数来代替它,例如虚线所示的Sigmoid函数。

单个神经元的作用有限,只能处理线性问题。但如果将神经元连接成神经网络,并采用非线性的激励函数,则具有强大的处理非线性问题的能力。

理论上,可以通过将神经元的输出连接到另外神经元的输入而形成任意结构的神经网络。但目前应用较多的是层状结构。 层状结构由输入层、隐层和输出层构成,其中可以有多个隐层

从信息处理方向来看,神经网络分为前馈型和反馈型两类。前馈型网络的信息处理方向是从输入层到输出层逐层前向传递。输入层只接收信息,隐层和输出层具有处理信息的能力。相邻层之间的节点是全连接关系,同层节点、跨层节点之间没有连接关系。有些特别设计的前馈神经网络会在个别同层节点之间或者个别跨层节点之间引入连接关系,如深度学习中的残差网络。

反馈型网络中存在信息处理反向传递,即存在从前面层到后面层的反向连接。反向传递会使得信息处理过程变得非常复杂,难以控制。

经过设计的神经网络可以用来完成机器学习的分类、聚类、回归和标注任务。

神经网络的网络结构可以看作是有向图,用S表示。神经网络中,每条连接都有一个连接系数,每个隐层节点和输出层节点都有一个阈值,这些参数(包括连接系数和阈值)用W表示。可以用N(S,W)表示神经网络。

一般来讲,网络结构S是预先设计好的,不存在学习问题。神经网络的参数W是通过训练从训练样本集中学习到的。如果通过学习不能达到预想要求,则可能需要重新设计网络结构S。目前在神经网络方面的研究大多是针对某一具体问题提出一个新的有针对性的网络结构S,还没有一个通用的能解决不同问题的网络结构。

传统神经网络模型中,常用于处理分类和回归问题的有BP神经网络,用于处理聚类问题的有SOM神经网络。

在以神经网络为基础的深度学习为特征提取问题提供了有效的解决方法之后,机器学习才得以异军突起,得到广泛应用。深度学习带来的革命性变化是弥合了从底层具体数据到高层抽象概念之间的鸿沟,使得学习过程可以自动从大量训练数据中学习特征,不再需要过多人工干预,实现了所谓的端到端(end to end)学习。

深度学习的具体算法一般是与某类具体应用紧密相关的,如图像识别问题与卷积神经网络、序列标注问题与循环神经网络等,还没有一个通用的模型或结构。

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
1月前
|
机器学习/深度学习 安全 PyTorch
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
93 20
|
29天前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
80 6
|
2月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
86 17
|
2月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
2月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
63 10
|
2月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
72 10
|
2月前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
|
2月前
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。

热门文章

最新文章