方差
在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。
其定义为:如果E(X)是随机变量X的期望值(平均数) 设为服从分布F的随机变量,则称为随机变量或者分布的方差:
其中,μ为平均数,N为样本总数。
分别针对离散型随机变量和连续型随机变量而言,方差的分布律和概率密度如下图所示:
标准差
标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。
前面说过,方差的算术平方根称为该随机变量的标准差,故一随机变量的标准差定义为:
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。 如果随机变量X为具有相同概率,则可用上述公式计算标准差。上述方差.标准差等相关内容,可用下图总结之:
样本标准差
在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了,就是数据海量,想计算总体海量数据的标准差无异于大海捞针,那咋办呢?抽取其中一些样本作为抽样代表呗。
而从一大组数值当中取出一样本数值组合,进而,我们可以定义其样本标准差为:
样本方差是对总体方差的无偏估计。 中分母为 n-1 是因为的自由度为n-1(且慢,何谓自由度?简单说来,即指样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n),这是由于存在约束条件。