使用最大似然法来求解线性模型（2）-为什么是最大化似然函数？-阿里云开发者社区

使用最大似然法来求解线性模型（2）-为什么是最大化似然函数？

2017-08-17 1193

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

根据使用最大似然法来求解线性模型（1），待求解的线性模型如下式：

t_n=w^T*x_n+ξ_n

第x_n年的百米赛跑的时间t_n，与两个参数有关：一个是w，另一个则是该年对应的一个误差值(noise)

在求解w和 ξ 之前，先观察一下误差值的特点：

误差有正有负，是一个随机变量。
误差与年份无关，每一个年份对应的误差之间相互独立

因此，关于errors（noise）的假设如下：

更进一步，假设errors(noise)服从高斯分布，模型表示如下：显然这个模型由两个参数来决定：w 和 σ²，只要确定这两个参数，就确定了这个模型。

这N个误差的联合概率密度为：p(ξ₁，ξ₂，...，ξ_N)，由于它们相互独立，故有：

现在，t_n 表示成了一个常数(w₀+w₁*x_n) 加上一个服从高斯分布的随机变量ξ_n，故t_n 也相当于一个服从正态分布的随机变量了。根据正态分布性质：

得出：

那t_n为什么是个条件概率呢？

根据上面t_n的表达式，在给定的w和ξ_n之后，我们就知道了t_n。而ξ_n服从正态分布，由σ²来确定。故t_n可表示成如上的条件概率形式。

现在不妨假设已经求得了w=[36.416,-0.0133]^T和σ²=0.05，在x_n=1980年时，上面的条件概率公式表示如下：

随机变量的均值由w^T*x_n计算得到，均值u=10.02，而方差是0.05

故它的概率密度函数如下：

在概率密度函数中有三个点A，B，C。其中B点对应的时间t约是t_B=10.1，C点对应的时间t是t_C=10.25

从图中可以看出：在A，B，C三个点中，B点对应的概率密度最大(y轴的值最高)，根据正态分布的概率密度性质，说明随机变量取B点处的值的概率最大，也即：随机变量t_n最可能的取值是10.1秒

但是，我们实际观察到的1980年奥林匹克竞赛男子100m赛跑的时间是：10.25秒，这是实际的样本值，也即上面概率密度函数中C点对应的值。

因此，问题就来了：

我们需要修改(重新求解)w和的σ²值(原来的值为：w=[36.416,-0.0133]^Tσ²=0.05)，使得：根据w和σ²画出的概率密度函数在t=10.25处最高，也即在t=10.25处取值的概率最大。

换句话说：我们需要寻找合适的w和σ²，让模型的概率密度函数在实际值10.25秒时，对应的概率密度最大。

我们把实际的样本值t=10.25 称为样本点x_n=1980 所对应的似然值(likelihood of data point 1980)。

目标是：寻找合适的w和σ²让概率密度函数在真实值10.25秒时对应的概率密度最大。而这就是最大化似然函数的思想。

参考：《A First Course of Machine Learning》第二章

本文转自hapjin博客园博客，原文链接：http://www.cnblogs.com/hapjin/，如需转载请自行联系原作者

使用最大似然法来求解线性模型（2）-为什么是最大化似然函数？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

使用最大似然法来求解线性模型（2）-为什么是最大化似然函数？

热门文章

最新文章

相关电子书