1. 摘要
这篇文章在统计学的背景下对机器学习学习建模过程进行了解密。将带你了解如何对数据的假设使我们能够创建有意义的优化问题。事实上,我们将推导出常用的标准,如分类中的交叉熵和回归中的均方误差。
2. 似然 VS 概率和概率密度
首先,让我们从一个基本问题开始:可能性和概率之间有什么区别?数据x,通过概率P ( x , θ ) 或概率密度函数 (pdf)P ( x , θ )连接到可能的模型 θ 。
简而言之,概率密度函数给出了不同可能数值的发生概率。概率密度函数描述的是任何给定值的无限小的概率。我们在这里坚持使用pdf的符号。对于任何给定的参数集 θ ,P ( x , θ ) 旨在成为x的概率密度函数。
似然P ( x , θ ) 被定义为观察数据的联合密度,作为模型参数的函数。这意味着,对于任何给定的x ,p ( x = fixed , θ ) 可以被看作是θ 的函数。因此,似然函数仅是参数θ的函数,数据保持为一个固定的常数。
我们将考虑的情况是,我们将考虑的情况是,我们要处理一个由m 个数据实例组成的X集合X = { x ( 1 ) , . . , x ( m ) },遵循经验训练数据分布= p data(x),是未知和更广泛数据分布的良好且具有代表性的样本。
3. 独立同分布假设
这给我们带来了 ML 最基本的假设:独立同分布 (IID) 数据(随机变量)。统计独立性意味着对于随机变量 A 和 B,联合分布P A , B ( A , B )
未完待续。。。。。最近比较忙,有空回来继续填坑