机器学习入门详解（一）：理解监督学习中的最大似然估计

2023-05-14 180

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这篇文章在统计学的背景下对机器学习学习建模过程进行了解密。将带你了解如何对数据的假设使我们能够创建有意义的优化问题。事实上，我们将推导出常用的标准，如分类中的交叉熵和回归中的均方误差。

1. 摘要

这篇文章在统计学的背景下对机器学习学习建模过程进行了解密。将带你了解如何对数据的假设使我们能够创建有意义的优化问题。事实上，我们将推导出常用的标准，如分类中的交叉熵和回归中的均方误差。

2. 似然 VS 概率和概率密度

首先，让我们从一个基本问题开始：可能性和概率之间有什么区别？数据x，通过概率P ( x , θ ) 或概率密度函数 (pdf)P ( x , θ )连接到可能的模型 θ 。

简而言之，概率密度函数给出了不同可能数值的发生概率。概率密度函数描述的是任何给定值的无限小的概率。我们在这里坚持使用pdf的符号。对于任何给定的参数集 θ ，P ( x , θ ) 旨在成为x的概率密度函数。

似然P ( x , θ ) 被定义为观察数据的联合密度，作为模型参数的函数。这意味着，对于任何给定的x ，p ( x = fixed ⁡ , θ ) 可以被看作是θ 的函数。因此，似然函数仅是参数θ的函数，数据保持为一个固定的常数。

我们将考虑的情况是，我们将考虑的情况是，我们要处理一个由m 个数据实例组成的X集合X = { x ^{( 1 )}, . . , x ^{( m )} }，遵循经验训练数据分布 = p _data(x)，是未知和更广泛数据分布的良好且具有代表性的样本。

这给我们带来了 ML 最基本的假设：独立同分布 (IID) 数据（随机变量）。统计独立性意味着对于随机变量 A 和 B，联合分布P_{A , B} ( A , B )

未完待续。。。。。最近比较忙，有空回来继续填坑