应用统计学与R语言实现学习笔记(五)——参数估计

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71379588 Chapter 5 Estimation本篇是第五章,内容是参数估计。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71379588

Chapter 5 Estimation

本篇是第五章,内容是参数估计。

1.参数估计的一般问题

正如前面介绍的,统计学的两大分支,分别是描述统计和推断统计。所以今天来谈谈推断统计的第一大问题——参数估计。当然一般叫统计推断的会更多些,二者是一样的。
统计推断(Statistical Inference)——主要包括参数估计和假设检验,实质就是通过样本的均值、标准差、方差等去估计总体的均值、标准差、方差或者判断总体的分布形式和分布参数。

  • 参数估计:根据从总体中抽得的样本所提供的信息,对总体分布中包含的未知参数作出数值上的估计。
    点估计:用样本的某一函数值来估计总体分布中的未知参数;
    区间估计:按照一定的可靠度估计出参数的一个范围,即确定一个区间,使这一个区间内包含参数真值的概率达到预先所要求的程度。
  • 假设检验:需要对总体的分布形式或分布参数事先作出某种假设,然后根据样本观测值,运用统计分析的方法来检验这一假设是否正确。

上一篇提到的,获取样本之后,我们需要去猜总体,参数估计就是猜总体的参数(分布中所含的未知参数;分布特征:均值、方差等;事件的概率等)或者参数空间(参数的可能取值范围)。
假设检验是下一章内容,这里就不细述了。
首先明确两个概念:估计量(estimator)与估计值(estimated value)。

  • 估计量: 用于估计总体参数的随机变量,一般为样本统计量(如样本均值、 样本比例、 样本方差等; 例如:样本均值就是总体均值 μ 的一个估计量)。
  • 估计值: 估计参数时计算出来的统计量的具体值,如果样本均值=80, 则80就是总体均值的估计值。

既然是估计量,就必须有评价估计量的标准。一般包括以下几点:

  • 无偏性:估计量的数学期望等于被估计的总体参数,样本的随机性导致估计偏差, 偏差平均值为0, 无系统误差(所以在这里又提出了渐进无偏估计:估计随着样本量的增加而逐渐趋近于真值。渐进无偏估计指系统偏差会随着样本量的增加而逐渐减小,趋于0,在大样本时可近似当无偏估计使用)。
  • 有效性: 对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效。
  • 一致性: 随着样本容量的增大, 估计量的值越来越接近被估计的总体参数。

由于无偏性是最普遍的标准。这里再介绍部分无偏性的几个要点:

  • 样本均值是总体期望的无偏估计。
  • 诸观测值对样本均值的偏差可正可负,其和恒为0(n个偏差中只有n-1个是独立的)。
  • 自由度:独立偏差个数。
  • 偏差平方和(样本量相等情况下,偏差平方和的大小反映样本散布的大小, 样本量大,偏差平方和大趋近于平均偏差平方和,偏差平方和的期望小于方差,有偏估计,渐进无偏估计。

点估计(point estimate)

  • 用样本估计量的某个取值直接作为总体参数的估计值(例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计)。
  • 无法给出估计值接近总体参数程度的信息(虽然在重复抽样条件下,点估计的均值可望接近总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值等同于总体真值的可能性很小,特别是在连续分布时,该概率几乎为0,一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量)。

2.区间估计 Confidence Intervals

正如前面提到的点估计可靠性较低,因此在点估计的基础上又提出了区间估计(interval estimate),它能解决的问题包括:

  • 为解决参数估计的精确度和可靠性问题, 在点估计的基础上给出总体参数估计的一个区间范围(该区间一般由样本统计量加减抽样误差而得到),使这一个区间内包含参数真值的概率大到预先所要求的程度。
  • 它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。

二者的区别在于:点估计是一个数,区间估计给出一个区间,提供更多关于变异性的信息。通俗的解释,你女朋友买了件衣服,让你猜价格,你猜中准确价格很难,但是你猜一个范围还是准确度比较高的。

这里写图片描述

所以区间估计(interval estimate)的概念是——根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
由概率度量则引出了置信区间(Confidence Intervals)的概念。

x 1 , x 2 , , x n f ( x , θ ) α 0 < α < 1 ,
θ 1 ( x 1 , x 2 , , x n ) θ 2 ( x 1 , x 2 , , x n )
使 P { ( θ 1 ( x 1 , x 2 , , x n ) < θ < θ 2 ( x 1 , x 2 , , x n ) } 1 α ,
( θ 1 ( x 1 , x 2 , , x n ) , θ 2 ( x 1 , x 2 , , x n ) ) θ 1 α ( C o n f i d e n c e i n t e r v a l ) ;
θ 1 , θ 2 , 1 α , α ( S i g n i f i c a n c e l e v e l )

置信区间实质上是由样本统计量所构造的总体参数的估计区间。在某种程度上确信这个区间包含真正的总体参数(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总
体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个)。置信区间表明了区间估计的精确性, 区间越小越精确,区间越大越不精确。
置信水平——将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平(置信度)。置信水平表明了区间估计的可靠性, 表示为 ( 1 α ) ( α 是总体参数未在区间内的比例, 区间估计不可靠的概率为 α , 如 α =0.05, 表明结论犯错误的概率为0.05),常用的置信水平值有99%, 95%, 90%。
那么什么样的置信区间是好的置信区间呢?也就是区间估计的评价标准是什么呢?一般包括如下两点:

  • 置信度(置信系数)越大越好——概率越大越放心,但不能一味求大。
  • 随机区间平均长度越短越好——估计精度越高。

但是在某些实际问题中,我们可能更关心置信上限或置信下限(合金钢强度,越大越好(望大特性),平均强度下限是个重要指标,药物毒性,越小越好(望小特性),平均毒性上限是个重要指标)。这就是单侧置信限问题。
谈完了这么多理论,接下来进入实践,如何做一个总体参数的区间估计?
按照前一章,我们还是讨论三个重要的总体参数:均值、比例、方差。也是先谈一个总体参数的区间估计。
首先规定好符号对应统计量和参数。
总体均值—— μ ,总体比例——p,总体方差—— σ 2 ;
样本均值—— x ¯ ,样本比例—— p ¯ ,样本方差—— s 2
一个总体均值的置信区间估计方法总结起来就是:

  • 正态分布,且总体方差 σ 已知,用Z值;
  • 正态分布,且总体方差 σ 未知,用t值;
  • 非正态分布但是大样本,无论总体方差 σ 是否已知,用Z值。

第一种情况:正态分布统计量z—— z = x ¯ μ σ / n N ( 0 , 1 ) ,总体均值 μ 1 α 置信水平下的置信区间为 x ¯ ± z α / 2 σ n ,置信下限为 x ¯ z α / 2 σ n ,置信上限为 x ¯ + z α / 2 σ n
第二种情况:t分布统计量—— t = x ¯ μ s / n t ( n 1 ) ,总体均值 μ 1 α 置信水平下的置信区间为 x ¯ ± t α / 2 s n ,置信下限为 x ¯ t α / 2 s n ,置信上限为 x ¯ + t α / 2 s n
第三种情况:正态分布统计量z—— z = x ¯ μ σ / n N ( 0 , 1 ) ,总体均值 μ 1 α 置信水平下的置信区间为 x ¯ ± z α / 2 σ n σ 未知的话,把 σ 换成s即可)。

一个总体比例的置信区间估计方法如下:
假定条件np≥5, n(1-p)≥5, n≥30。
正态分布统计量z—— z = p ¯ p p ( 1 p ) n N ( 0 , 1 ) ,总体比例的置信区间为 p ¯ ± z α / 2 p ( 1 p ) n p ¯ ± z α / 2 p ¯ ( 1 p ¯ ) n

一个正态总体方差的置信区间估计方法如下:
总体方差 σ 2 的点估计量为 s 2 ,则 ( n 1 ) s 2 σ 2 χ 2 ( n 1 ) ,总体方差在 1 α 置信水平下的置信区间为:
( n 1 ) s 2 χ α / 2 2 ( n 1 ) σ 2 ( n 1 ) s 2 χ 1 α / 2 2 ( n 1 )

接下来谈谈两个总体参数的置信区间的估计方法。
估计的一般包括均值差、比例差、方差比,主要包括两种抽样方法——独立样本和配对样本。
两个正态总体均值之差的置信区间(独立样本):

σ 1 2 σ 2 2 已知,使用正态分布统计量z: z = ( x ¯ 1 x ¯ 2 ) ( μ 1 μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 N ( 0 , 1 ) ,两个总体均值之差 μ 1 μ 2 1 α 置信水平下的置信区间为: ( x ¯ 1 x ¯ 2 ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2

σ 1 2 = σ 2 2 未知,总体方差的合并估计量: s p 2 = ( n 1 1 ) s 1 2 + ( n 2 1 ) s 2 2 n 1 + n 2 2 ,估计量 x ¯ 1 x ¯ 2 的抽样标准差: s p 1 2 n 1 + s p 2 2 n 2 ,两个样本均值之差的标准化: t = ( x ¯ 1 x ¯ 2 ) ( μ 1 μ 2 ) s p 1 n 1 + 1 n 2 t ( n 1 + n 2 2 ) ,两个总体均值之差 μ 1 μ 2 1 α 置信水平下的置信区间为: ( x ¯ 1 x ¯ 2 ) ± t α / 2 ( n 1 + n 2 2 ) s p 2 ( 1 n 1 + 1 n 2 )
σ 1 2 σ 2 2 未知, n 1 = n 2 ( x ¯ 1 x ¯ 2 ) ± t α / 2 ( n 1 + n 2 2 ) ( s 1 2 n 1 + s 2 2 n 2 )
σ 1 2 σ 2 2 未知, n 1 n 2 ( x ¯ 1 x ¯ 2 ) ± t α / 2 ( v ) ( s 1 2 n 1 + s 2 2 n 2 ) v v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 1 + ( s 2 2 / n 2 ) 2 n 2 1

两个总体均值之差的区间估计(独立大样本)
两个总体均值之差的估计:
σ 1 2 σ 2 2 已知时,两个总体均值之差 μ 1 μ 2 1 α 置信水平下的置信区间为: ( x ¯ 1 x ¯ 2 ) ± z α / 2 ( σ 1 2 n 1 + σ 2 2 n 2 )
σ 1 2 σ 2 2 未知时,两个总体均值之差 μ 1 μ 2 1 α 置信水平下的置信区间为: ( x ¯ 1 x ¯ 2 ) ± z α / 2 ( s 1 2 n 1 + s 2 2 n 2 )

两个总体均值之差的区间估计(匹配样本)
匹配大样本的假定条件——两个匹配的大样本( n 1 30 n 2 30 );
两个总体均值之差 μ d = μ 1 μ 2 1 α 置信水平下的置信区间为: d ¯ ± z α / 2 σ d n d ¯ ± z α / 2 s d n d ¯ 为对应差值的均值, σ d 为对应差值的标准差。

匹配小样本的假定条件——两个匹配的小样本( n 1 < 30 n 2 < 30 ),两个总体各观察值的配对差服从正态分布。
两个总体均值之差 μ d = μ 1 μ 2 1 α 置信水平下的置信区间为: d ¯ ± t α / 2 ( n 1 ) s d n

两个总体比例之差区间的估计
假定条件——两个总体服从二项分布,可以用正态分布来近似,两个样本是独立的。
两个总体比例之差 p 1 p 2 1 α 置信水平下的置信区间为: p ¯ 1 p ¯ 2 ± z α / 2 q ¯ 1 ( 1 q ¯ 1 ) n 1 + q ¯ 2 ( 1 q ¯ 2 ) n 2

两个正态总体方差比的置信区间
实际应用如两种不同方法生产的产品性能的稳定性或两种不同测量工具的精度,需要我们去比较两个总体方差。

两个正态总体方差比的估计
比较两个总体的方差比,用两个样本的方差比来判断(如果 s 1 2 / s 2 2 接近于1,说明两个总体方差很接近;如果 s 1 2 / s 2 2 远离1,说明两个总体方差存在差异)。
总体方差比在 1 α 置信水平下的置信区间为: s 1 2 / s 2 2 F α / 2 < σ 1 2 σ 2 2 < s 1 2 / s 2 2 F 1 α / 2 , F F ( n 1 1 , n 2 1 ) (F分布性质: F 1 α / 2 ( n 1 , n 2 ) = 1 F α / 2 ( n 2 , n 1 ) )。

总的来说,参数估计的东西很多,根据具体研究情况,我们可以根据自己需求选择不同的参数估计。当然据笔者所知,R语言在参数估计上,现成函数(指默认的基础包)比较少,一般需要自编函数或者有额外的包。这里先给出一个样例函数(14章中会涉及到一部分,这里不详述)。

conf.int=function(x,sigma,alpha) {
    mean=mean(x)
    n=length(x)
    z=qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)
    c(mean-sigma*z/sqrt(n),mean+sigma*z/sqrt(n))
    }

3.样本容量的确定

前一章我们提到统计学闻名于世的规定,样本容量一般必须>30。但是这种规定,并不是万能的。所以样本容量的确定就成了一个问题。n过大费用高、时间长、人力多;n过小误差增大。
事实上n的确定依赖于多大置信度(可靠性),什么样的精度(多宽的区间)。
所以样本容量的确定需要根据置信区间的性质来决定。
置信区间的性质——以正态总体小样本容量为例。首先置信区间的宽度: w = 2 z σ n ,因此很容易发现影响区间宽度的因素包括了:

  • 样本容量:大样本容量——小区间。
  • 总体数据的离散程度:小方差——小区间。
  • 置信水平:高置信度——大t值——大区间。

边际误差(margin error)——置信区间上下限与点估计之间的距离。

E = z σ n

给定边际误差E和置信水平 1 α ,可以找到所需要的样本容量。

估计总体均值时样本容量的确定( σ 2 已知):
n = ( z α / 2 ) 2 σ 2 E 2 E = z α / 2 σ n
样本容量n与总体方差 σ 2 、边际误差E、置信水平 1 α 之间的关系为:

  • 随总体方差增大而增大。
  • 随边际误差减小而增大。
  • 1 α 增大而增大,随 α 减小而增大。

σ 未知,如有近期样本可用,用其样本标准差代替 σ ,用t分布分位数代替标准正态分布分位数,自由度为近期样本容量-1。否则,可以用一个至少比 σ 大的数来替代 σ ,抽一个样本,用s代替 σ ——Stein 两步法。

估计总体比例时样本容量的确定:
根据比例区间估计公式可得样本容量n为

n = ( z α / 2 ) 2 p ( 1 p ) E 2 E = z α / 2 p ( 1 p ) n

E的取值一般小于0.1,p 未知时, 可用之前样本比率估计,或保守的取最大值0.5。

估计两个总体均值之差时样本容量的确定:
n 1 n 2 为来自两个总体的样本,并假定 n 1 = n 2 。根据均值之差的区间估计公式可得两个样本的容量n为:

n 1 = n 2 = n = ( z α / 2 ) 2 ( σ 1 2 + σ 2 2 ) E 2 E = z α / 2 ( σ 1 2 + σ 2 2 ) n

估计两个总体比例之差时样本容量的确定:
n 1 n 2 为来自两个总体的样本,并假定 n 1 = n 2 。根据比例之差的区间估计公式可得两个样本的容量n为:
n 1 = n 2 = n = ( z α / 2 ) 2 [ p 1 ( 1 p 1 ) + p 2 ( 1 p 2 ) ] E 2 E = z α / 2 ( p 1 ( 1 p 1 ) + p 2 ( 1 p 2 ) ) n

总的来说,样本容量的确定也是根据具体需要以及显著性水平计算得到的。
目录
相关文章
|
2月前
|
存储 数据可视化 数据挖掘
R语言在生物信息学中的应用
【10月更文挑战第21天】生物信息学是生物学、计算机科学和信息技术相结合的交叉学科,主要研究生物大分子信息的存储、处理、分析和解释。R语言作为一种强大的统计分析工具,被广泛应用于生物信息学领域。本文将介绍R语言在生物信息学中的应用,包括基因组学、转录组学、蛋白质组学、代谢组学等方面,帮助读者了解R语言在生物信息学中的重要性和应用前景。
91 4
|
2月前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
116 3
|
2月前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
61 2
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
机器学习/深度学习 算法 数据挖掘
R语言中的支持向量机(SVM)与K最近邻(KNN)算法实现与应用
【9月更文挑战第2天】无论是支持向量机还是K最近邻算法,都是机器学习中非常重要的分类算法。它们在R语言中的实现相对简单,但各有其优缺点和适用场景。在实际应用中,应根据数据的特性、任务的需求以及计算资源的限制来选择合适的算法。通过不断地实践和探索,我们可以更好地掌握这些算法并应用到实际的数据分析和机器学习任务中。
|
4月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
4月前
|
数据挖掘
R语言方差分析(ANOVA):理解与应用
【8月更文挑战第31天】ANOVA是一种强大的统计方法,用于比较三个或更多组之间的均值差异。在R语言中,我们可以轻松地使用`aov()`函数进行ANOVA分析,并通过后置检验(如TukeyHSD检验)来进一步分析哪些组之间存在显著差异。ANOVA在多个领域都有广泛的应用,是数据分析中不可或缺的工具之一。
|
4月前
|
程序员 数据处理
R语言控制结构:条件判断与循环在R中的应用
【8月更文挑战第27天】R语言中的条件判断和循环结构是编程中不可或缺的部分,它们允许程序员根据特定的条件或规则来控制程序的执行流程。通过灵活使用这些控制结构,可以编写出高效、可维护的R语言代码,以应对复杂的数据处理和分析任务。
|
5月前
|
数据采集 数据可视化 大数据
R语言在统计分析中的应用与实践
【7月更文挑战第30天】R语言以其强大的统计分析能力和开源自由的特性,在统计分析领域发挥着重要作用。无论是基础的描述性统计、推断性统计,还是复杂的回归分析、时间序列分析和生存分析,R语言都提供了丰富的函数和包来支持。通过学习和掌握R语言,数据分析师和研究者可以更加高效地进行数据分析,获取有价值的信息和结论。未来,随着大数据和云计算等新兴技术的发展,R语言的应用前景将更加广阔。