技术心得记录:概率统计20——估计量的评选标准

简介: 技术心得记录:概率统计20——估计量的评选标准

  对总体参数进行估计的方式多种多样,为了评判估计量的优劣,我们需要借助一些评选标准。


这些乱七八糟的符号


  我觉得参数估计总是人为地设计各种门坎,里面参杂着各种符号,一会儿是X,一会儿是x;一会儿是θ,一会儿是θ(X);还有诸如“总体参数”、“待估计参数”这类名词,究竟是几个意思?


  有必要先理清这些符号。


  我们用全国18~50岁的男性身高为例,所有18~50岁的男性是总体。在概率统计中,当我们说到总体,就是指一个具有特定概率分布的随机变量,这个随机变量用X表示,X符合某某分布。n表示总体的数量,假设这些男性有3亿,那么n就等于3亿。在做统计的时候肯定不能普查//代码效果参考:http://www.jhylw.com.cn/253633757.html

所有人,这样成本也太高了,因此才有抽样。当然抽样也有多种形式,比如均匀抽样、拒绝抽样等,这是另外的话题,在数据分析专栏中将陆续展开。

  现在调查了100万个符合条件的男性,这些男性就构成了“整体中的一个样本”,用X1, X2, …, Xm表示,Xi表示样本中的第i个男性,m是样本的容量,m等于100万。样本中的每个男性都有特定的身高,是一个具体的数值,这个值用小写的x表示,x10 = 176cm表示样本中的第10个数据的值是176cm,此时X10 = x-10。这有点类似于P(X=x)的意思,X表示随机变量本身,x表示某个特定的数值。


  值得注意的是,如果用X1, X2, …, Xm表示样本,则强调样本是随机的,是理论上的、尚未诞生的样本,样本中的每个数据都是一个随机变量;如果用x1, x2, …, xm表示样本,则强调样本中的随机变量已经有了特定的取值,是已经拥有的样本。


  此外,n的值不一定很大,如果调查某个特定班级的平均身高,那么n的值就只是这个班级的学生数,比如n=60。n也不一定是个确定的值,比如从建国到现在全国人民一共消费了多少斤啤酒,没有具体的数,只知道这个数大到没边。


  现在我们知道18~50岁的男性身高符合某个均值为μ,方差为σ2的正态分布X~N(μ, σ2),μ和σ2称为“总体的参数”,正是这两个值决定了分布的具体形态,用大Θ表示总体参数的集合。总体参数不止一个,这里的μ和σ2都是总体的参数。θ是总体中的某一个参数,它可以代表μ,也可以代表σ2,有点变量的意思,可能用x比用θ更好理解,但是x已经被占用了。此外,用表示样本的均值,用S2表示样本的方差。


  现在θ的具体值是多少不知道,需要根据样本X1, X2, …, Xm估计总体参数θ,具体估计量用表示。 表示是由具体的样本X1, X2, …, Xm估计出来的, 仅仅是为了强调这一点,至于怎么估计是另一回事。这也有点类似于y = y(x),第一个y是个具体的数值,这个数值是由x决定的,第二个y是一个映射关系,至于是什么映射关系是另一回事。有时候也把m个样本记作X = {X1, X2, …, Xm},因此有了,如果用θ表示μ,就有了。这里的X不再是总体,而是来自于总体中的样本,至于X到底是总体还是样本,需要根据上下文确定。


多个参数产生的问题


  已知总体的均值是μ,方差是σ2

  已知总体有期望和方差两个数字特征,但不知道具体值,这比直接说啥也不知道强不了多少。


  假设我们已经使用直方图之类的工具分析过样本,或直接咨询过领域内的相关专家,得知总体应当符合正态分布,X~N(μ, σ2)。现在我们可以用多种方法估计μ和σ2?


  点估计和连续性修正(概率统计17)中的介绍,样本矩的估计量是:


  一维正态分布的最大似然估计(概率11)中,最大似然估计也能得到类似的结论:


  当m很大时,1/m和1/(m-1)的差距也很小,可以认为矩估计和最大似然估计的结论相等。我们能否因此得出一个结论,说两种估计法在任何分布下得到的结论都相同?


  还是估计总体的均值和方差,这次从样本的分析中得知,总体可能符合X~【a, b】的均匀分布。


  在再看大数定律(概率统计18).中我们已经知道均匀分布的密度函数,从而求得均匀分布的均值和方差:


  使用矩估计求得样本的均值和方差时,我们将认为样本矩等于总体矩,从而得到一个关于a和b的方程组,进而求得a和b的矩估计量:


  这里也可以看出,矩估计的优点就是简单,不管总体服从什么分布,样本矩的计算方法都一样。


  现在来看均匀分布下样本的最大似然估计。


  用xmin和xmax表示样本值中最小的和最大的,对于X~【a, b】来说,所有样本的取值都在a,b之间,即xmin ≥ a,xmax ≤ b,似然函数是:


  之后的目标是根据样本找到L(x;a,b)最大时a,b的取值:


  这个结果和矩估计明显不同。


  现在的问题是,我们分不出这两个估计量的优劣。这就是我们要面对的新问题。


  我们用 和表示两种方案的估计量。对于不同的估计量,与真实值的差误差也不同,无法仅凭一个数值来评估估计量,而是使用一条曲线:


  对于某些估计而言 ,对于另外一些则可能相反。这就好比两个人的考试成绩,甲的语文成绩比较好,而乙的数学成绩更优秀。能否找出一个全优的学生呢?也就是对于整体中的全部参数,我们都希望估得最佳结果,以使得根据样本估计的分布接近整体分布。这是个美好的愿望,随着待估计参数的增加,找到全优学生的难度也急剧增大。因此为了找出最优估计量,我们必须添加一些额外的评判规则。这就涉及到如何评估估计量的问题。较为常用的三个标准是无偏性、有效性和相合性。


无偏性


  X1, X2, …, Xm-是来自于总体中的样本,θ是总体分布的参数,θ∈Θ,根据样本可以得到θ的估计量:


  如果的数学期望存在,且:


  如果对于整体中的任意θ,上式都成立,则称是θ的无偏估计量。


  这到底是啥意思?参数为什么能有期望?


无偏性的数学解释


  首先需要回顾第一节的内容,清楚地了解这些符号的真正含义。


  设总体X的均值为μ,方差是σ2

  如果使用矩估计,则根据再看大数定律(概率统计18)中的内容,样本均值的期望与方差是:


  这表明样本均值是整体均值的无偏估计。


  样本的方差是:


  这里之所以用Xi而不是xi,是为了强调样本的随机性,可以简单地理解为计划抽取一个随机样本,但还没有真正开始抽取。


  现在看看E【S2】是多少。


  根据方差的性质:


  对于样本中的任意一个随机变量来说,方差和期望都相等:


  此外:


  最终:


  上面的结论表明,样本方差S2也是总体方差的无偏估计,这也附带说明了样本方差的系数是1/(m-1)的原因,如果取1/m,则估计量无法确保无偏性。


  从这个例子中也看出,无论总体符合什么分布,样本均值都是整体均值的无偏估计,样本方差也都是总体方差的无偏估计。


无偏性的意义


  样本X1, X2, …, Xm-是随机的,因此根据这些样本得出的估计量 也是随机的,我们已经多次重申过这一点。既然是随机的,那么一个自然的结论是:根据样本的不同,有些估计量可能偏大,有些可能偏小。反复将这一估计量使用多次,就“平均”来说其偏差为零。


  在科学技术中称为以作为θ估计的系统误差。无偏估计的实际意义就是无系统误差。


  既然如此,是否意味着无偏估计一定好呢?通常来讲是的,但也不尽然,比如下图中,有偏的甲明显更优于无偏的乙。


不同的无偏估计量


  设总体X服从指数分布,概率密度为:


  其中参数θ未知,X1, X2, …, Xm-是来自X的样本,根据指数分布的性质:


  因此样本均值是参数θ的无偏估计量。


  然而估计量不止一种,下面的mZ也是θ的无偏估计量:


  Z具有概率密度:


  可见一个未知参数可能有不同的无偏估计量。


有效性


  同一个参数为什么会出现不同的无偏估计量呢?我们可以想象一个场景:任何人都可以估计明天的天气,至于是否准确另当别论。同样是估计天气,气象局的天气预报显然更准确。但就无偏性来说,普通人和天气预报的平均偏差都为0。这就好比甲乙二人的射击比赛,甲的成绩明显高于乙,但无偏性却告诉我们二者的成绩相同,这显然是荒谬的:


  对于上图来说,谁的成绩越接近靶心,谁的成绩就越好,这也正是有效性的基本逻辑。对于参数θ的两个无偏估计量,谁和θ更靠近,谁就越好。一种自然的方式是比较不同的无偏估计量与θ之差的绝对值,但是绝对值不易处理,于是使用平方误差法,这也是一种常用的较为简便的方式。如果对于整体中的任意θ,都有:


  则称比 有效。


  再次强调的是,都是随机值,因此才通过期望来去掉随机性,进而比较二者谁更有效:


  另一个值得关注的问题是,有效性还强调了对于任意θ∈Θ都成立。如果总体参数θ中包含两个待估计变量,只有当方案1的两个估计量全部优于方案2时,才能说方案1比方案2更有效。


  对于上节的指数分布来说:


  因此比mZ更有效。


相合性


  简单而言,如果当样本的容量增大时,估计量逐渐收敛于待估计参数的真实值,那么称是θ的相合估计量。


  相合性是对一个估计量的基本要求,如果估计量不具有相合性,那么无论样本的容量有多大,都无法将参数估计得足够准确,这种估计已经有点近似于胡乱猜测。


优化的策略


  有了评选标准之后,我们就可以使用一些优化策略,找出最优估计量。


  无偏性为估计量加上了限制,有了这条限制,大多数不太好的估计量会被排除。经过无偏性的筛选后,再使用有效性求得的最优解称为最小方差无偏估计量(uniformly minimum variance unbiased estimate,UMVUE)。


  尽管我们可以通过减少候选项的方式找出最优解,但需要认清的事实是,找到任何情况下都适用的全能最优解绝非易事。既然如此,不妨改变策略,弱化最优解的定义,只要满足相合性和渐进有效性,就认为这个解是可以接受的。


  渐进有效性:当样本容量n→∞时, 收敛于理论边界。


  最大似然估计就是这种策略下最常用的方案。


  在最小方差无偏估计中,我们实际上是想找到总分最优的估计量,但这种方法假设所有参数都是平等的,并没有为参数分配恰当的权重。贝叶斯估计采用了另一种思路应对这个问题。


  无论最小方差无偏估计还是最大似然估计,我们都认为待估计参数θ是个确定的值,比如1949年10月1日中华人民共和国成立,这是一个明确的日期。而在贝叶斯估计中,把θ也看作一个变量,所求的是θ的分布,也就是后验分布,如果后验分布较窄,则可信度较高,否则可信度较低。这类似于估计1949年10月1日中华人民共和国成立的概率是多少。贝叶斯估计的难点在于后验概率的计算较为复杂。关于更多先验和后验的问题将在后续章节陆续展开。


随笔

相关文章
|
13天前
|
传感器 机器学习/深度学习 数据采集
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
本文提供了2022年第十一届认证杯数学中国数学建模国际赛小美赛C题"对人类活动进行分类"的建模方案和Python代码实现,包括数据预处理、特征提取、LSTM网络模型构建和训练评估过程。
38 11
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
|
机器学习/深度学习 人工智能 自然语言处理
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
由来自卡内基梅隆大学、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校的成员共同开发的工具α,β-CROWN 获得了第二届国际神经网络验证大赛总分第一,以及 5 个单项第一!其中该团队的学生作者均为华人。
310 0
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
|
13天前
|
数据可视化 决策智能 Python
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
本文介绍了江西省研究生数学建模竞赛题目之二“国际‘合作-冲突’的演化规律研究”的建模方案和参考文献,探讨了如何通过博弈论和决策树模型来分析和预测国家间的合作与冲突行为,并提出了评估国际环境和应对突发事件的策略。
22 0
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
54 0
|
机器学习/深度学习 存储 缓存
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
644 0
|
数据采集 机器学习/深度学习 人工智能
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密
231 0
|
存储 编解码 人工智能
达摩院参与制定国际视频标准,提案斩获两项第一!
达摩院参与制定国际视频标准,提案斩获两项第一!
72 0
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
238 0
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
175 0
|
机器学习/深度学习 算法 Python
一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享
一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享
220 0
一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享