最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法。最大似然估计明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然估计是一类完全基于统计的系统发生树重建方法的代表。
是不是,有点看不懂,太学术了,我们举例说明~
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
很多小伙伴,甚至不用算,凭感觉,就能给出答案:70%!
下面是详细推导过程:
最大似然估计,计算
白球概率是p,黑球是1-p(罐子中非黑即白)
罐子中取一个请问是白球的概率是多少?
- $$p$$
罐子中取两个球,两个球都是白色,概率是多少?
- $$p^2$$
罐子中取5个球都是白色,概率是多少?
- $$p^5$$
罐子中取10个球,9个是白色,一个是黑色,概率是多少呢?
- $C{10}^1 = C{10}^1$ 这个两个排列组合公式是相等的~
- $$C_{10}^9p^9(1-p) = C_{10}^1p^9(1-p)$$
罐子取100个球,70次是白球,30次是黑球,概率是多少?
$$P = C_{100}^{30}p^{70}(1-p)^{30}$$
最大似然估计,什么时候P最大呢?
$C_{100}^{30}$是常量,可以去掉!
p > 0,1- p > 0,所以上面概率想要求最大值,那么求导数即可!
$$P' = 70*p^{69}*(1-p)^{30} + p^{70}*30*(1-p)^{29}*(-1)$$
令导数为0:
$$0 = 70*p^{69}*(1-p)^{30} +p^{70}*30*(1-p)^{29}*(-1)$$
公式化简:
$$0 = 70*(1-p) - p*30$$
$$0 = 70 - 100*p$$
p = 70%