概率与信息论:期望、方差、标准差和协方差

简介: 概率与信息论:期望、方差、标准差和协方差

1. 期望

函数 $f(x)$ 关于分布(概率) $P(x)$ 的期望或者期望值可表示为:

对于离散型随机变量:

$$ \mathbb{E}_{x \sim P}[f(x)]=\sum_{x}P(x)f(x) $$

对于连续型随机变量:

$$ \mathbb{E}_{x \sim p}[f(x)]=\int p(x)f(x)dx $$

期望可以理解为受概率分布影响的平均值,若取得一个值的概率越大,那么期望就越接近这个值。

期望是线性的:

$$ \mathbb{E}_{x}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_{x}[f(x)]+\beta \mathbb{E}_{x}[g(x)] $$

2. 方差

方差可表示为:

$$ Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] $$

从公式上看来,方差就是 $(f(x)-\mathbb{E}[f(x)])^2$ 的期望,而 $f(x)-\mathbb{E}[f(x)]$ 是函数值与其期望的差值,如果函数 $f(x)$ 大于期望,则为正数;若小于就为负数,那么对其平方,代表我们不考虑函数值是否大于期望值,而只关心它到期望的距离,也即偏离期望的程度。

所以,方差衡量的是当我们对 $x$ 依据它的概率分布进行采样时,随机变量 $x$ 的函数值会呈现多大的差异。如果方差较大,则会取得的值会有更大的几率偏离期望较大。

3. 标准差

标准差很简单,就是方差的平方根。

4. 协方差

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度,它表示为:

$$ Cov(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])] $$

从公式上来看,协方差是 $f(x)-\mathbb{E}[f(x)]$ 与 $g(y)-\mathbb{E}[g(y)]$ 的乘积的期望,与上面类似的。

协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远。如果协方差为正,它们都倾向于同时取得较大值;若为负,那么一个变量取得较大值时另一个会取得较小值。

如果两个变量相互独立,它们的协方差就会为零,如果协方差不为零,那么它们必定相关。但是如果两个变量相关,它们的协方差是可能为零的,这是因为独立性的条件是比较强的,它还排除了非线性的关系。

举个例子:假设 $x$ 在区间 $[-1,1]$ 的均匀分布中采样,$s$ 有 $\frac{1}{2}$ 的概率为 $1$,$\frac{1}{2}$ 的概率为 $-1$,做一个映射 $y=sx$ 显然 $x$ 和 $y$ 不是相互独立的,但是它们的协方差却为零。可以跟着我试着计算一下:

  1. 首先,对于 $[a,b]$ 的均匀分布,其期望为 $\frac{a+b}{2}$ 所以 $\mathbb{E}[f(x)]=\frac{-1+1}{2}=0$;$\mathbb{E}[g(y)]=\mathbb{E}[sx]=\mathbb{E}[\frac{1}{2}x-\frac{1}{2}x]$ 也为 $0$;
  2. 那么,$Cov(f(x),g(y))=\mathbb{E}[(f(x)g(y)]=\mathbb{E}[\frac{1}{2}x^2-\frac{1}{2}x^2]$,显然,它们的协方差是为零的。

5. 协方差矩阵

随机向量 $x \in \mathbb{R}^n$ 的协方差矩阵是一个 $n \times n$ 的矩阵,满足:

$$ Cov(x)_{i,j}=Cov(x_i,x_j) $$

协方差矩阵的对角元是方差:

$$ Cov(x_i,x_i)=Var(x_i) $$

目录
相关文章
|
网络协议 测试技术 应用服务中间件
|
存储 缓存 前端开发
关于JWT Token 自动续期的解决方案
在前后端分离的开发模式下,前端用户登录成功后后端服务会给用户颁发一个jwt token。前端(如vue)在接收到jwt token后会将token存储到LocalStorage中。
2116 0
|
9月前
|
机器学习/深度学习 编解码 数据可视化
面向海洋保护的YOLOv8水下垃圾分类检测系统|含训练与部署代码
本项目围绕海洋环境保护问题,构建了一个基于 YOLOv8 的水下垃圾目标检测系统,具备良好的实用性与可扩展性。系统集成了自定义数据训练、图形界面封装、实时检测展示等多个关键模块,能够有效识别和分类 12 类典型水下垃圾。
面向海洋保护的YOLOv8水下垃圾分类检测系统|含训练与部署代码
|
Shell 网络架构 计算机视觉
RT-DETR改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
RT-DETR改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
314 5
|
Ubuntu 网络协议 Linux
快速部署WSL(Windows Subsystem for Linux)
WSL提供了一种轻量级的方法,使开发者能够在Windows上无缝运行Linux环境。通过本文介绍的步骤,可以快速安装、配置和使用WSL,以满足开发和测试的需求。
3064 8
|
存储 运维 NoSQL
【赵渝强老师】Redis的慢查询日志
Redis慢查询日志用于记录执行时间超过预设阈值的命令,帮助开发和运维人员定位性能问题。每条慢查询日志包含标识ID、发生时间戳、命令耗时及详细信息。配置参数包括`slowlog-max-len`(默认128)和`slowlog-log-slower-than`(默认10000微秒)。实战中可通过`slowlog get`获取日志、`slowlog len`查看长度、`slowlog reset`重置日志。建议线上环境将`slowlog-max-len`设为1000以上,并根据并发量调整`slowlog-log-slower-than`。需要注意的是,慢查询只记录命令执行时间。
706 5
|
机器学习/深度学习 算法 数据库
R-CNN论文详解(入门目标检测必读)
R-CNN论文详解(入门目标检测必读)
R-CNN论文详解(入门目标检测必读)
|
自然语言处理 监控 机器人
自然语言处理中的语义理解和生成技术
【8月更文第18天】自然语言处理(NLP)是计算机科学的一个重要分支,其目标是使计算机能够理解、解析和生成人类语言。近年来,基于Transformer架构的预训练模型(如BERT、GPT系列)已经极大地推动了NLP的发展。本文将探讨这些模型在对话系统、文本生成、情感分析等领域的应用,并讨论相关技术挑战。
950 1
|
机器学习/深度学习 文字识别 数据安全/隐私保护
Python实现从PDF和图片提取文字的方法总结
Python实现从PDF和图片提取文字的方法总结
1412 0
|
存储 C语言
如何实现双向循环链表
如何实现双向循环链表