期望、方差、协方差及相关系数的基本运算

简介:

这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。


一、期望

定义:

   设P(x)是一个离散概率分布函数自变量的取值范围是。那么其期望被定义为:
                                                                  
    设P(x)是一个连续概率分布函数 ,那么他的期望是:                                                                             

性质:

1.线性运算:

   期望服从先行性质,因此线性运算的期望等于期望的线性运算:   

                                                

   我们可以把它推广到任意一般情况:
                                                

2.函数的期望:

 设f(x)是x的函数,则f(x)的期望为:

    离散:

                      

    连续:

                      

3.乘积的期望:

    一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,

                                                                                       

     期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。


设C为一个常数,X和Y是两个 随机变量。以下是数学期望的重要性质:
1.E(C)=C
2.E(CX)=CE(X)
3.E(X+Y)=E(X)+E(Y)
4.当X和Y相互独立时,E(XY)=E(X)E(Y)
性质3和性质4可以推到到任意有限个相互独立的随机变量之和或之积的情况。

例子:

某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。求一个家庭平均小孩的数目:
思路:则此城市中任一个家庭中孩子的数目是一个随机变量。它可取值0,1,2,3。 其中取0的概率为0.01(1000/10万),取1的概率0.9(9000/10万),取2的概率为0.06(6000/10万),取3的概率为0.03(3000/10万) 它的数学期望0×0.01+1×0.9+2×0.06+3×0.03等于1.11,即此城市一个家庭平均有小孩1.11个。 用数学式子表示为E(X)=1.11。

   


二、方差

定义:

方差是一种特殊的期望, 被定义为:

                              

离散型的方差:

             

                  

连续型的方差:

            

                 

以上两式是一样的,只是写法不同。
证明:由数学期望的性质得

性质:

1.设C是 常数,则D(C)=0
2.设X是随机变量,C是常数,则有 
 
3.设 X 与 Y 是两个随机变量,则
其中协方差 
 
特别的,当X,Y是两个不相关的随机变量(相互独立)则
此性质可以推广到有限多个两两不相关的随机变量之和的情况。

统计学意义:

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为 (无偏性)。
       标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

三、协方差

   定义:

 在概率论和统计学中,协方差用于衡量两个变量的总体误差。期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:
                                                              
                                                                                  
                                                                                  
                                                                                  

  特殊情况下,当X=Y时:

                     


从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果 XY是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足 E[ XY]= E[ X] E[ Y]。
但是,反过来并不成立。即如果 XY的协方差为0,二者并不一定是统计独立的。

性质:

(1)Cov(X,Y)=Cov(Y,X);
(2)Cov( aX, bY)= abCov(X,Y),( ab是常数);
(3)Cov(X 1+X 2,Y)=Cov(X 1,Y)+Cov(X 2,Y)。
由协方差定义,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。

四、相关系数

      协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念;

定义:

   
 称为随机变量X和Y的(Pearson)相关系数。

性质:

1.若 ρXY=0,则称X与Y不线性相关。
2.即 ρXY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
3. 相关系数ρ XY 取值在-1到1之间,ρ XY  = 0时,称X,Y不相关;
 | ρ XY  | = 1时,称X,Y 完全相关 ,此时,X,Y之间具有线性函数关系;
 | ρ XY  | < 1时,X的变动引起Y的部分变动,ρ XY 的绝对值越大,X的变动引起Y的变动就越大;
 | ρ XY  | > 0.8时称为高度相关,当 | ρ XY  | < 0.3时称为低度相关,其它时候为中度相关。


五、参考资料

1.协方差相关系数等百度百科

2.北航之张洋系列


目录
相关文章
|
12月前
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
367 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
SQL 存储 开发框架
数据库必知词汇:用户定义函数(UDF)
用户定义函数(UDF) 由一个或多个SQL语句组成的子程序,可用于封装代码以便重新使用。通常情况下不将用户限制在定义为SQL语言一部分的内置函数上,而是允许用户创建自己的用户定义函数。
2599 0
WK
|
机器学习/深度学习 算法
什么是Sigmoid函数
Sigmoid函数是在机器学习及统计学中广泛应用的一种数学模型,尤其适用于逻辑回归与神经网络中的激活场景。该函数能将任意实数映射至(0,1)区间,象征概率或事件发生可能性。其S型曲线特性使其在二分类问题中表现出色,同时具备连续平滑与中心对称的特点,利于采用如梯度下降等优化算法。然而,Sigmoid函数在极端输入值下会出现梯度消失的问题,影响模型训练效果。尽管有此局限性,它在特定应用场景中依然重要,例如需要输出概率值的情况。
WK
883 0
|
12月前
|
物联网 云计算
|
Linux vr&ar 开发者
Linux 命令 `ar` 详解:静态库的管理利器
`ar` 命令是 Linux 管理静态库的工具,常用于创建、修改和提取 `.a` 文件。基本语法为 `ar [选项] 目标文件 [成员...]`。常用选项包括:`rcs` 创建(更新)静态库,`t` 列出成员,`x` 提取成员,`d` 删除成员。注意文件顺序、创建索引、备份和跨平台兼容性。学习和掌握 `ar` 命令能提升系统开发效率。
|
算法 vr&ar Python
一文速学-时间序列分析算法之移动平均模型(MA)详解+Python实例代码
一文速学-时间序列分析算法之移动平均模型(MA)详解+Python实例代码
3148 0
一文速学-时间序列分析算法之移动平均模型(MA)详解+Python实例代码
|
存储 安全 数据管理
磁盘分区全解:快速搞定硬盘分区
本文介绍了磁盘分区的重要性和好处,如数据管理、性能提升和安全增强,并为初学者提供了Windows系统下的磁盘分区指南。文章提到了三种磁盘分区工具:磁盘管理器、Diskpart命令行工具和第三方软件DiskGenius。同时,详细阐述了如何在磁盘管理器中创建新分区、使用DiskGenius一键重新分区、拆分现有分区以及通过Diskpart命令创建分区的步骤。最后,文章强调了磁盘分区在数据管理和系统优化中的价值。
|
C语言 数据安全/隐私保护
计算机网络:物理层(码分复用计算)
计算机网络:物理层(码分复用计算)
406 0
|
定位技术 Python
Anaconda环境配置Python绘图库Matplotlib的方法
Anaconda环境配置Python绘图库Matplotlib的方法
393 1
|
机器学习/深度学习 搜索推荐
高斯-马尔科夫定理(Gauss-Markov theorem)
高斯-马尔科夫定理(Gauss-Markov theorem),也称为高斯-马尔科夫定理(Gauss-Markov theorem)或线性最小二乘定理(linear least squares theorem),是统计学中一个重要的定理,它描述了在一些假设条件下,普通最小二乘估计(Ordinary Least Squares, OLS)是线性回归模型中最优的无偏估计。
1246 1