期望、方差、协方差及相关系数的基本运算

简介:

这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。


一、期望

定义:

   设P(x)是一个离散概率分布函数自变量的取值范围是。那么其期望被定义为:
                                                                  
    设P(x)是一个连续概率分布函数 ,那么他的期望是:                                                                             

性质:

1.线性运算:

   期望服从先行性质,因此线性运算的期望等于期望的线性运算:   

                                                

   我们可以把它推广到任意一般情况:
                                                

2.函数的期望:

 设f(x)是x的函数,则f(x)的期望为:

    离散:

                      

    连续:

                      

3.乘积的期望:

    一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,

                                                                                       

     期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。


设C为一个常数,X和Y是两个 随机变量。以下是数学期望的重要性质:
1.E(C)=C
2.E(CX)=CE(X)
3.E(X+Y)=E(X)+E(Y)
4.当X和Y相互独立时,E(XY)=E(X)E(Y)
性质3和性质4可以推到到任意有限个相互独立的随机变量之和或之积的情况。

例子:

某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。求一个家庭平均小孩的数目:
思路:则此城市中任一个家庭中孩子的数目是一个随机变量。它可取值0,1,2,3。 其中取0的概率为0.01(1000/10万),取1的概率0.9(9000/10万),取2的概率为0.06(6000/10万),取3的概率为0.03(3000/10万) 它的数学期望0×0.01+1×0.9+2×0.06+3×0.03等于1.11,即此城市一个家庭平均有小孩1.11个。 用数学式子表示为E(X)=1.11。

   


二、方差

定义:

方差是一种特殊的期望, 被定义为:

                              

离散型的方差:

             

                  

连续型的方差:

            

                 

以上两式是一样的,只是写法不同。
证明:由数学期望的性质得

性质:

1.设C是 常数,则D(C)=0
2.设X是随机变量,C是常数,则有 
 
3.设 X 与 Y 是两个随机变量,则
其中协方差 
 
特别的,当X,Y是两个不相关的随机变量(相互独立)则
此性质可以推广到有限多个两两不相关的随机变量之和的情况。

统计学意义:

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为 (无偏性)。
       标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

三、协方差

   定义:

 在概率论和统计学中,协方差用于衡量两个变量的总体误差。期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:
                                                              
                                                                                  
                                                                                  
                                                                                  

  特殊情况下,当X=Y时:

                     


从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果 XY是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足 E[ XY]= E[ X] E[ Y]。
但是,反过来并不成立。即如果 XY的协方差为0,二者并不一定是统计独立的。

性质:

(1)Cov(X,Y)=Cov(Y,X);
(2)Cov( aX, bY)= abCov(X,Y),( ab是常数);
(3)Cov(X 1+X 2,Y)=Cov(X 1,Y)+Cov(X 2,Y)。
由协方差定义,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。

四、相关系数

      协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念;

定义:

   
 称为随机变量X和Y的(Pearson)相关系数。

性质:

1.若 ρXY=0,则称X与Y不线性相关。
2.即 ρXY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
3. 相关系数ρ XY 取值在-1到1之间,ρ XY  = 0时,称X,Y不相关;
 | ρ XY  | = 1时,称X,Y 完全相关 ,此时,X,Y之间具有线性函数关系;
 | ρ XY  | < 1时,X的变动引起Y的部分变动,ρ XY 的绝对值越大,X的变动引起Y的变动就越大;
 | ρ XY  | > 0.8时称为高度相关,当 | ρ XY  | < 0.3时称为低度相关,其它时候为中度相关。


五、参考资料

1.协方差相关系数等百度百科

2.北航之张洋系列


目录
相关文章
|
Java Nacos Spring
spring boot 2.6.x接入spring cloud alibaba 2021.x版本nacos
spring cloud alibaba 2021.x版本nacos配置中心对接spring boot 2.6版本。
spring boot 2.6.x接入spring cloud alibaba 2021.x版本nacos
|
10月前
|
算法 Java 微服务
2025 年 Java 面试宝典社招春招秋招实操全方位攻略
2025年Java面试宝典涵盖核心技术及最新趋势,分为四大板块:1. Java基础:深入数据类型、多态等特性,结合学生信息管理等实例;2. JVM核心:解析内存模型与GC算法,附多线程转账等场景应用;3. 高并发方案:详解synchronized与线程池配置,提供Web服务器优化案例;4. Spring生态:剖析IoC/AOP原理,演示微服务架构实现。特别新增Java 17+特性实操,包括Record类、密封接口等语法糖,整合Spring Boot 3、响应式编程及云原生技术,通过订单状态机、API网关配置。
461 1
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
机器学习/深度学习 人工智能 并行计算
N卡和A卡的硬件架构比较与选择指南
N卡和A卡的硬件架构比较与选择指南
1114 0
|
10月前
|
人工智能 运维 数据可视化
什么是低代码?2025低代码开发平台发展现状及标准化研究
低代码是一种通过可视化、组件化方式开发应用的技术,可降低开发门槛、提升效率。它能减少沟通成本、打破业务壁垒、提高产品灵活性并加速企业数字化转型。目前,低代码市场正以年复合增长率35%的速度扩张,但面临标准化、性能和技术债务等挑战。未来三年内,随着AI辅助开发和国家标准的推进,低代码将迎来质变临界点,成为企业数字化的核心驱动力。
WK
|
机器学习/深度学习 算法
什么是Sigmoid函数
Sigmoid函数是在机器学习及统计学中广泛应用的一种数学模型,尤其适用于逻辑回归与神经网络中的激活场景。该函数能将任意实数映射至(0,1)区间,象征概率或事件发生可能性。其S型曲线特性使其在二分类问题中表现出色,同时具备连续平滑与中心对称的特点,利于采用如梯度下降等优化算法。然而,Sigmoid函数在极端输入值下会出现梯度消失的问题,影响模型训练效果。尽管有此局限性,它在特定应用场景中依然重要,例如需要输出概率值的情况。
WK
1715 0
|
人工智能 自然语言处理 搜索推荐
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
科技云报到原创。 经历了多年的“答非所问”、“一问三不知”,很多人已经厌倦了所谓的“智能客服”。哪怕是技术已经非常成熟、可以模拟真人发音的外呼机器人,也会因为“机感”重而被用户迅速挂机或转向人工客服。 智能客服似乎遇到了一道坎,在理解用户、和用户对话方面,始终无法实现真正的“智能”。然而大模型技术的出现,让智能客服看到了前所未有的曙光——基于大模型特有的生成式技术和智能的涌现,让智能客服越来越逼近人们想象中的样子。 但问题是,仅有大模型就够了吗?大模型技术要如何引入智能客服才能落地?落地后的大模型究竟如何在智能客服具体场景中发挥作用?又能为客服行业带来了哪些改变?更进一步,对于企业和
1091 2
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
670 6
|
数据安全/隐私保护
matlab 地震波基线校正,kik地震基线漂移,校正加速度,批量处理
地震波格式转换、时程转换、峰值调整、规范反应谱、计算反应谱、计算持时、生成人工波、时频域转换、数据滤波、基线校正、Arias截波、傅里叶变换、耐震时程曲线、脉冲波合成与提取、三联反应谱、地震动参数、延性反应谱、地震波缩尺、功率谱密度