机器学习中的数学原理——似然函数

简介: 机器学习中的数学原理——似然函数

什么是似然函数

似然函数 定义. 在 数理统计学 中, 似然函数是一种关于统计模型中的参数的函数 ,表示模型参数中的 似然性 。 似然函数在 推断统计学 (Statistical inference)中扮演重要角色,如在 最大似然估计 和费雪信息之中的应用等等。. "似然性"与"或然性"或" 概率 "意思相近,都是指某种事件发生的可能性,但是在 统计学 中,"似然性"和"或然性"或"概率"又有明确的区分。

案例分析

再上一篇文章中我们学习了逻辑回归现在我们的任务就是来求参数的更新表达式,但是逻辑回归的目标函数与之前不一样,也就是和最小二乘法的不一样,一开始我们把 x 为横向的概率 P(y = 1|x) 定义为 fθ(x) 了。基于这一点,既然 fθ(x) 是 x 为横向时的概率……那么在 y = 1 时 fθ(x) = 1,y = 0 时 fθ(x) = 0 的关系就是理想的,我们把这句话换成这样的说法:

● y = 1 的时候,我们希望概率 P(y = 1|x) 是最大的

● y = 0 的时候,我们希望概率 P(y = 0|x) 是最大的

P(y = 1|x) 是图像为横向的概率,P(y = 0|x) 是图像为纵向的概率。这适用于全部的训练数据。对于一开始列举的那 6 个训练数据,我们期待的最大概率是这样的:

而且,假定所有的训练数据都是互不影响、独立发生的,这种情况下整体的概率就可以用下面的联合概率来表示。

第 1 次的概率是 P(y(1) = 0|x(1)),第 2 次的概率是P(y(2) = 0|x(2))……我们要计算的是连续发生 6 次的概率,而且联合概率的表达式是可以一般化的,写法如下:

我们分别考虑 y(i) 为 1 或为 0 时的 P(y(i) = 1|x(i))y(i)P(y(i) = 0|x(i)1−y(i)。P 右上角的 y(i) 和 1 − y(i) 表示指数,首先向指数 y(i) 代入 1。

这样就只剩 y(i) = 1 的概率了。y(i) = 0 的时候也一样

这个表达式利用了任何数字的 0 次方都是 1 的特性。比起区分各种情况的写法,还是汇总到一个表达式的写法更简单。接下来考虑一下使这个目标函数最大化的参数 θ 吧。

回归的时候处理的是误差,所以要最小化,而现在考虑的是联合概率,我们希望概率尽可能大,所以要最大化。这里的目标函数 L(θ) 也被称为似然,函数的名字 L 取自似然的英文单词 Likelihood 的首字母。它的意思是最近似的。

我们可以认为似然函数 L(θ) 中,使其值最大的参数 θ 能够最近似地说明训练数据。似然是不容易理解的概念,这里不懂它也没关系。只要记住这个词就行了。


相关文章
|
8天前
|
机器学习/深度学习 数据可视化 计算机视觉
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
15 0
|
6天前
|
机器学习/深度学习 人工智能 并行计算
人工智能平台PAI产品使用合集之机器学习PAI中特征重要性的原理不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
23天前
|
机器学习/深度学习 自然语言处理 算法
|
2天前
|
机器学习/深度学习 自然语言处理 算法
机器学习算法原理与应用:深入探索与实战
【5月更文挑战第2天】本文深入探讨机器学习算法原理,包括监督学习(如线性回归、SVM、神经网络)、非监督学习(聚类、PCA)和强化学习。通过案例展示了机器学习在图像识别(CNN)、自然语言处理(RNN/LSTM)和推荐系统(协同过滤)的应用。随着技术发展,机器学习正广泛影响各领域,但也带来隐私和算法偏见问题,需关注解决。
|
4天前
|
机器学习/深度学习 PyTorch TensorFlow
【Python机器学习专栏】卷积神经网络(CNN)的原理与应用
【4月更文挑战第30天】本文介绍了卷积神经网络(CNN)的基本原理和结构组成,包括卷积层、激活函数、池化层和全连接层。CNN在图像识别等领域表现出色,其层次结构能逐步提取特征。在Python中,可利用TensorFlow或PyTorch构建CNN模型,示例代码展示了使用TensorFlow Keras API创建简单CNN的过程。CNN作为强大深度学习模型,未来仍有广阔发展空间。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】层次聚类算法的原理与应用
【4月更文挑战第30天】层次聚类是数据挖掘中的聚类技术,无需预设簇数量,能生成数据的层次结构。分为凝聚(自下而上)和分裂(自上而下)两类,常用凝聚层次聚类有最短/最长距离、群集平均和Ward方法。优点是自动确定簇数、提供层次结构,适合小到中型数据集;缺点是计算成本高、过程不可逆且对异常值敏感。在Python中可使用`scipy.cluster.hierarchy`进行实现。尽管有局限,层次聚类仍是各领域强大的分析工具。
|
4天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习算法的原理与应用
【4月更文挑战第30天】集成学习通过组合多个基学习器提升预测准确性,广泛应用于分类、回归等问题。主要步骤包括生成基学习器、训练和结合预测结果。算法类型有Bagging(如随机森林)、Boosting(如AdaBoost)和Stacking。Python中可使用scikit-learn实现,如示例代码展示的随机森林分类。集成学习能降低模型方差,缓解过拟合,提高预测性能。
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习的原理与应用
机器学习的原理与应用
|
5月前
|
机器学习/深度学习 大数据 程序员
[机器学习]机器学习数学基础(三)
[机器学习]机器学习数学基础(三)
21 0
|
6月前
|
机器学习/深度学习 算法 前端开发
【机器学习基础】机器学习的模型评估(评估方法及性能度量原理及主要公式)
【机器学习基础】机器学习的模型评估(评估方法及性能度量原理及主要公式)
308 0

热门文章

最新文章