程序技术好文:统计学基础(一):中位数、方差、标准差、均方误差、估计量、高斯函数、正态分布

简介: 程序技术好文:统计学基础(一):中位数、方差、标准差、均方误差、估计量、高斯函数、正态分布

一、中位数


定义/解释:按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小


  # 如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。


二、方差


参考百科:方差


 1)定义


   方差(variance):是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量


 2)应用


  1、在统计描述中


方差用来计算每一个变量(观察值)与总体均数之间的差异


在许多实际问题中,研究方差即偏离程度有着重要意义


为避免出现离均差(X - )总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度


总体方差计算公式:


:总体方差


:变量


:总体均值


:总体例数


实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:S2 = ∑(X - )2 / (n - 1)


S2:样本方差


X:变量


:为样本均值


n:样本例数。


  2、在概率分布中


用来度量随机变量和其数学期望(即均值)之间的偏离程度。


在概率分布中,设X是一个离散型随机变量,若E{【X - E(X)】2}存在,则称E{【X - E(X)】2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。


离散型随机变量方差计算公式:D(X)=E{【X - E(X)】2} = E(X2) - 【E(X)】2


当D(X) = E{【X-E(X)】2}称为变量X的方差,而 称为标准差(或均方差)。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的统计量 //代码效果参考:http://www.jhylw.com.cn/330329155.html


对于连续型随机变量X,若其定义域为(a, b),概率密度函数为f(x),连续型随机变量X方差计算公式:D(X) = (x - μ)2 * f(x)dx,方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大),若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。


三、标准差


 # 参考百科:标准差


 1)定义


标准差(Standard Deviation)又常称均方差,是方差的算术平方根,反映一个数据集的离散程度


 2)应用


在概率统计中:最常使用作为统计分布程度(statistical dispersion)上的测量。


标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度


测量到分布程度的结果,原则上具有两种性质:


为非负数值, 与测量资料具有相同单位


一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。


公式:


假设有一组数值X?,X?,X?,......Xn(皆为实数),其平均值(算术平均值)为μ


标准差也被称为标准偏差,或者实验标准差,公式:


 3)其它


简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值


四、均方误差


 1)定义


均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。


设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的方差与偏倚。


 2)名词介绍


相合估计(或一致估计)是在大样本下评价估计量的标准,在样本量不是很多时,人们更加倾向于基于小样本的评价标准,此时,对无偏估计使用方差,对有偏估计使用均方误差。


一般地,在样本量一定时,评价一个点估计的好坏标准使用的指标总是点估计 与参数真值 的距离的函数,最常用的函数是距离的平方,由于估计量 具有随机性,可以对该函数求期望,这就是下式给出的均方误差:


均方误差是评价点估计的最一般的标准,自然,我们希望估计的均方误差越小越好,注意到


上式说明,均方误差 由点估计的方差 与偏差 的平方两部分组成。


如果 是 θ 的无偏估计,则 ,此时用均方误差评价点估计与用方差是完全一致的,这也说明了用方差考察无偏估计是合理的。


当 不是 θ 的无偏估计,就要看其均方误差 ,即不仅看方差大小,还要看其偏差大小,下面的例子说明在均方误差的含义下,有些有偏估计优于无偏估计。


 3)一致性最小的均方误差估计


定义1:


设有样本 对待估参数 θ,有一个估计类,称 是该类中θ的一致最小均方误差估计,如果对该类估计中另外任意一个θ的估计 ,在参数空间 上都有


使用情况:


一致最小均方误差估计通常是在一个确定的估计类中进行的,一致最小均方误差估计一般是不存在的。


既然一致最小均方误差估计一般是不存在的,人们通常就对估计提出一些合理性要求,如无偏性就是一个常见的合理性要求。


一致最小方差无偏估计前面曾指出,均方误差 由点估计的方差 与偏差 的平方两部分组成,当 是 θ 的无偏估计时,均方误差就简化为方差,此时一致最小均方误差估计就是一致最小方差无偏估计。


定义2 :


设 是 θ 的无偏估计,如果对于任意一个θ的无偏估计 ,在参数空间 上都有 则称 是 θ 的一致最小方差无偏估计,简记为UMVUE。


五、估计量


 1)定义


用来估计总体未知参数用的统计量。


在统计学中,估计量是基于观测数据计算一个已知量的估计值的法则:于是估计量(estimator)、被估量(estimand)和估计值(estimate)是有区别的。


估计值:当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值,英文是estimator。


 2)举例


设(X1,……,Xn)为来自总体X的样本,(X1,……,Xn)为相应的样本值,θ是总体分布的未知参数,θ∈Θ。


Θ 表示 θ 的取值范围,称 Θ 为参数空间。尽管 θ 是未知的,但它的参数空间 Θ 是事先知道的,为了估计未知参数θ,我们构造一个统计量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值,称h(X1,……,Xn)为θ的估计量。


假设存在一个固定的待估参数。那么"估计量"是样本空间映射到样本估计值的一个函数。 的一个估计量记为 。很容易用随机变量的代数来阐述这个理论:因而如果用X来标记对应观测数据的随机变量,估计量(本身视为随机变量)的符号表示为该随机变量的函数, 。对特定观测数据集(即对于X=x)的估计值为一固定值 。通常使用简化标记,用 表示随机变量,不过这会造成误解。


个人理解:


目的:估计总体数据集 X 的分布情况,即 θ;


方法:从总体数据集 X 中抽取一组样本 h,根据 h 的分布以及 θ 的取值范围 Θ 来估计总体数据集 X 的分布情况 θ。


 3)误差


对于一个给定样本x,估计量 的"误差"定义为 其中 是待估参数。


注意误差e不仅取决于估计量(估计公式或过程),还取决于样本。


 4)均方误差


估计量 的均方误差被定义为误差的平方的期望值,即为: 。


它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。


 5)一致性


一致估计量序列是一列随着序号(通常是样本容量)无限增大时依概率收敛于被估量的估计量序列。换句话说,增加样本容量增大了估计量接近总体参数的概率。


在数学上,一个估计量序列 {tn;n≥ 0} 是参数 θ 的一致估计量当且仅当对于所有 ?

就如,一个人不断地抛硬币,随着次数的增多,任何一面出现的概率(机率)就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量,或者说一致估计值。


六、高斯函数、正态分布


 1)定义


格式:


a、b与c为实数常数,且a

c= 2的高斯函数是傅立叶变换的特征函数。这就意味着高斯函数的傅立叶变换不仅仅是另一个高斯函数,而且是进行傅立叶变换的函数的标量倍。


 2)积分


任意高斯函数的积分是:


另一种形式是:


其中 f 必须是严格积分的积分收敛;


 3)正态分布


参见百科:


公式:


正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)


高斯函数是正态分布的密度函数,根据中心极限定理它是复杂总和的有限概率分布;


若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。


定理:


由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。


为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。



服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)


定义:


若随机变量//代码效果参考:http://www.jhylw.com.cn/395135089.html

<img style="color: rgba(0, 0, 0, 1)" title="" src="
相关文章
|
6月前
|
Serverless
R语言用于线性回归的稳健方差估计
R语言用于线性回归的稳健方差估计
|
6月前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
|
6月前
R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析
R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析
|
6月前
|
数据可视化
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理
【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理
117 0
|
6月前
贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
|
6月前
R语言ISLR工资数据进行多项式回归和样条回归分析2
R语言ISLR工资数据进行多项式回归和样条回归分析
R语言ISLR工资数据进行多项式回归和样条回归分析2
|
6月前
|
数据采集
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
|
6月前
R语言ISLR工资数据进行多项式回归和样条回归分析11
R语言ISLR工资数据进行多项式回归和样条回归分析
|
6月前
R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数
R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数