开发者学堂课程【机器学习算法 :回归模型参数估计-5】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7280
回归模型参数估计-5
内容简介
一、 参数估计:有偏估计和无偏估计
二、 参数估计的性质
一、参数估计:有偏估计和无偏估计
无偏估计(Unbiased Estimate):用样本统计量来估计总体参数时的一种无偏推断,估计量的的数学期望等于估计量的真实值,即。换言之,在对某量进行估计时,针对不同的样本,估计结果对真实值来说有的偏大有的偏小,反复多次,“平均”来说,和真实值的偏差为0。反之,即为有偏估计(Biased Estimate)。无偏估计无系统性偏差,有偏估计有系统性偏差。例如,在等公交车,车站上写的是四点,估计的时候有可能早来也有可能晚来,如果估计多次平均就在4点左右,此时就叫做无偏估计;如果多次估计的平均值不是四点,这就属于有偏估计,它和实际的期望值有一个明显的差异,就算估计的偏差再小、方差在稳定,它都是不行的。估计到四点的才是无偏估计。
某一个样本,其方差的无偏估计是还是?
展开可以看见中间的那一项2XE(X)变成了2E((XE(X)),x的数学期望的平方就是常数,再求数学期望依旧还是本身。2E((XE(X))实际上也等于x数学期望的平方,最后就成了在学方差的时候,数学期望是已经知道的,书上有的,可以稍微进行推导。由上面的式子就可以得到
也就是x平均值平方的平均期望就等于
下图为公式的详细推导过程,先把的值代进去,之后把第一个展开由于是一个二项式,所以变为了三项。根据期望运算的一些性质进一步展开,期望的和、差可以直接展开,就变成下图中第二行式子,把的式子合到一起,由于均值是一个常数,就可以把它放到前面,求和就只对有作用。有两个地方用不同的颜色标记出来,这些需要进一步的进行一些替换。先看红色的的求和,已知x的均值就等于n分之一x求和,对式子进行变换,左右交换最后得到的n乘x的均值。黄色的部分是的平方求和,可以知道平方的数学期望,就等于数学期望和平均值。在这就是n分之一的的平方求和,同样将n分之一乘以式子左边来,交换次序就等于n乘以平方的数学期望。做下一步工作,把简化的式子带入到其中就得出了第三行的式子。注意平均值的常数则平方的也是常数,就可以提到前面(求和没有关系)。看第三行中的第一项n可以消掉就剩下平方的数学期望的数学期望,它的数学期望也是常数,再求数学期望也不会发生变化;第二项也是类似的把2提出来并消掉n;在对第三项的1求和是n,把n提出来就变成了均值平方的数学期望。整合后得到第四行式子之后把这两项的结果带入得到最终公式。
最后还是用手计算一下,大概了解在做方差分析的时候有偏估计量和无偏估计量是什么。换一个角度理解一下,有一个叫做自由度的东西,无论在做假设检验还是其他的情况下经常会遇到自由度的概念。比如说里面的变量可以随便取值,就是自由的,如果每多一个条件,自由度就会减一。例如有五个变量,都可以取到就是自由度为5,若其中一个变量固定住,不能随便取值,它的自由度减一。这个公式中通常n就是自由度,如果没有说限制,那就是n分之一。为什么在求方差的时候,自由度是 n-1而不是n?因为不管有多少变量,在n个变量中求方差的时候平均值是确定的,就等于自由度减一。这是一个物理上的概念用来引入到数学来解释,最扎实的还是手工计算刚刚简单的推导过程,之后就可以理解方差的无偏估计是n-1。
二、 参数估计的性质
用 LSE 估计一元线性回归方程的性质:
线性:估计量为随机变量;的线性函数,即:
无偏:估计值y为真实值y的无偏估计,即。就是说的预测值的数学期望与真实值的数学期望是相等的。
参数的方差:无偏意味着估计值没有系统偏差(就是之前举得公交车的例子,估算公交车到达的时间,就是公交车到达时间是4点,估计值的浮动,这些数学期望的值是4点,就是无偏估计的),仅仅无偏还不够(因为有可能到达的时间是6点、2点,这个均值是4点,但由于波动范围太大,估算值得意义就有限。不但看偏差,也要看方差。这和之前选择模型得时候一样,不能只看是不是无偏,无偏固然好,就算有偏,就需要校正否则不正确。波动范围小,对实际应用有价值比如估算得无偏估计值是4点,若无偏估计的方差浮动在正负5分钟内,那么这个估算是有帮助的;若是在正负两小时浮动,这个方差就过大了,是不能接受的),还要关心估计值的波动情况,即是否稳定,需要关注估计值的方差:
这个和两个因素有关,一个是分子,就是随机误差的平方,这个越大,整体估计的方差越大;还有一个和分母有关,这个本身和 x 方差相似,也就是x本身的方差越大,整体估计的方差就越小。比如用一个样本估计,父母的身高来预测孩子的身高,x是父亲的身高,它的身高跨度越大,对于来说方差越小。就是父亲的身高从一米五到两米都有,对来讲实际估计值的结果越小;如果身高都集中在一米七到一米七一之间,的方差就很大,估计出来的参数值就很差。在采样的时候数据要全面,样本数据要有代表性,全面,那对最终的估计结果越好。
对来说是类似的,首先结果是和有关,就是随机误差的平方,这个越大,整体估计的方差越大,波动范围越大;还有就是n越大,整体估计的方差越小,就是拿到的样本数据越多,拿到的效果越好;还有就是x的取值,x的跨度范围越大,对参数估计越有利。以上内容就是刚刚讲的回归系数的波动和什么有关。样本数越多越好,变量的取值跨度越大越好,本身的随机误差越小越好。通常把记作,则有, 这两个的正态分布,就比如的估计值在真实的取值周围波动,是无偏的波动范围就是。让自变量变小,样本个数变多,自变量的取值最快,最终对参数估计的效果越有帮助。