概率与信息论:期望、方差、标准差和协方差

简介: 概率与信息论:期望、方差、标准差和协方差

1. 期望

函数 $f(x)$ 关于分布(概率) $P(x)$ 的期望或者期望值可表示为:

对于离散型随机变量:

$$ \mathbb{E}_{x \sim P}[f(x)]=\sum_{x}P(x)f(x) $$

对于连续型随机变量:

$$ \mathbb{E}_{x \sim p}[f(x)]=\int p(x)f(x)dx $$

期望可以理解为受概率分布影响的平均值,若取得一个值的概率越大,那么期望就越接近这个值。

期望是线性的:

$$ \mathbb{E}_{x}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_{x}[f(x)]+\beta \mathbb{E}_{x}[g(x)] $$

2. 方差

方差可表示为:

$$ Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] $$

从公式上看来,方差就是 $(f(x)-\mathbb{E}[f(x)])^2$ 的期望,而 $f(x)-\mathbb{E}[f(x)]$ 是函数值与其期望的差值,如果函数 $f(x)$ 大于期望,则为正数;若小于就为负数,那么对其平方,代表我们不考虑函数值是否大于期望值,而只关心它到期望的距离,也即偏离期望的程度。

所以,方差衡量的是当我们对 $x$ 依据它的概率分布进行采样时,随机变量 $x$ 的函数值会呈现多大的差异。如果方差较大,则会取得的值会有更大的几率偏离期望较大。

3. 标准差

标准差很简单,就是方差的平方根。

4. 协方差

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度,它表示为:

$$ Cov(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])] $$

从公式上来看,协方差是 $f(x)-\mathbb{E}[f(x)]$ 与 $g(y)-\mathbb{E}[g(y)]$ 的乘积的期望,与上面类似的。

协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远。如果协方差为正,它们都倾向于同时取得较大值;若为负,那么一个变量取得较大值时另一个会取得较小值。

如果两个变量相互独立,它们的协方差就会为零,如果协方差不为零,那么它们必定相关。但是如果两个变量相关,它们的协方差是可能为零的,这是因为独立性的条件是比较强的,它还排除了非线性的关系。

举个例子:假设 $x$ 在区间 $[-1,1]$ 的均匀分布中采样,$s$ 有 $\frac{1}{2}$ 的概率为 $1$,$\frac{1}{2}$ 的概率为 $-1$,做一个映射 $y=sx$ 显然 $x$ 和 $y$ 不是相互独立的,但是它们的协方差却为零。可以跟着我试着计算一下:

  1. 首先,对于 $[a,b]$ 的均匀分布,其期望为 $\frac{a+b}{2}$ 所以 $\mathbb{E}[f(x)]=\frac{-1+1}{2}=0$;$\mathbb{E}[g(y)]=\mathbb{E}[sx]=\mathbb{E}[\frac{1}{2}x-\frac{1}{2}x]$ 也为 $0$;
  2. 那么,$Cov(f(x),g(y))=\mathbb{E}[(f(x)g(y)]=\mathbb{E}[\frac{1}{2}x^2-\frac{1}{2}x^2]$,显然,它们的协方差是为零的。

5. 协方差矩阵

随机向量 $x \in \mathbb{R}^n$ 的协方差矩阵是一个 $n \times n$ 的矩阵,满足:

$$ Cov(x)_{i,j}=Cov(x_i,x_j) $$

协方差矩阵的对角元是方差:

$$ Cov(x_i,x_i)=Var(x_i) $$

目录
相关文章
|
10天前
|
数据采集
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
|
11天前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
18 5
|
11天前
R语言异方差回归模型建模:用误差方差解释异方差
R语言异方差回归模型建模:用误差方差解释异方差
|
5月前
14 棣莫弗的二项概率逼近
14 棣莫弗的二项概率逼近
28 0
|
7月前
|
Ruby
(一)探索随机变量及其分布:概率世界的魔法
(一)探索随机变量及其分布:概率世界的魔法
|
7月前
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
|
数据可视化 Python
概率学中的随机变量与分布
概率学中的随机变量与分布
概率学中的随机变量与分布
|
机器学习/深度学习
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
127 0
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
|
机器学习/深度学习
概率和似然
在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。
99 0
概率和似然
【数理统计】均值检验(双侧、单侧)和区间估计
【数理统计】均值检验(双侧、单侧)和区间估计
225 0
【数理统计】均值检验(双侧、单侧)和区间估计