《深度学习导论及案例分析》一2.2概率论的基本概念

简介: ####本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第1章,第1.1节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.2概率论的基本概念 2.2.1概率的定义和性质 概率(probability)是一个从随机事件空间到实数域的函数,用来描述随机事件发生的可能性。

####本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.2节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2概率论的基本概念

2.2.1概率的定义和性质

概率(probability)是一个从随机事件空间到实数域的函数,用来描述随机事件发生的可能性。通常用Ω表示随机事件的样本空间,用AΩ表示随机事件。Ω也称为平凡事件,则称为空事件。

一个概率分布(或概率函数)P必须满足如下三条公理:

非负性公理P(A)≥0

规范性公理P(Ω)=1

可加性公理对任意可数无穷多个两两不相交事件样本AiΩ,Ai∩Aj=(i≠j),有
P∪∞i=1Ai=∑∞i=1P(Ai)(2.21)
一般情况下,只有非常特殊的事件才能计算出准确的概率,如抛掷无偏硬币时出现的正反面概率。而大量随机事件发生的真实概率通常是无法确知的,但通常可以采用事件发生的频率近似估计,这种用频率估计概率的方法称为最大似然估计。

如果对于所有非空事件AΩ,A≠,都有P(A)>0,则称P是正分布(positive distribution)。

如果两个事件A,BΩ,P(B)>0,那么在给定B时,A的条件概率(conditional probability)定义为
P(AB)=P(AB)P(B)=P(A∩B)P(B)(2.22)
其中,AB=A∩B表示A和B的交事件,即它们同时发生的事件。

条件概率P(AB)是在假定事件B发生的情况下,事件A发生的概率。一般地,P(AB)≠P(A)。

如果P(AB)=P(A)P(B),那么称事件A和B在概率分布P中独立,记为P (A⊥B)或P (B⊥A)。易知,当P(AB)=P(A)、P(BA)=P(B)、P(A)=0或P(B)=0时,事件A和B也是独立的。

如果P(ABC)=P(AC)P(BC),那么称事件A和B在概率分布P中条件独立于事件C,记作P(A⊥BC)或P(B⊥AC)。易知,当P(ABC)=P(AC)、P(BAC)=P(BC)、P(BC)=0或P(AC)=0时,事件A和B也是条件独立于事件C的。

利用条件概率,不难得到概率的乘法规则:
P(AB)=P(B)P(AB)=P(A)P(BA)(2.23)

P(A1A2…An)=P(A1)P(A2A1…AnA1A2…An-1)(2.24)
如果有限个事件BiΩ构成Ω的一个划分,即Bi∩Bj=(i≠j)且∪Bi=Ω,那么有定义时还可得到全概率公式:
P(A)=∑iP(ABi)P(Bi)(2.25)
以及相应的贝叶斯法则:
P(BjA)=P(ABj)P(Bj)P(A)=P(ABj)P(Bj)∑iP(ABi)P(Bi)(2.26)```
###2.2.2随机变量和概率密度函数

随机变量X:ΩR是一个定义在样本空间Ω上的实值函数,它的值域表示为:
val(X)={X(ω):ω∈Ω}(2.27)
它的累积分布函数(cumulative distribution function,CDF)定义为:
F(x)=P(X≤x)=P(ω∈Ω:X(ω)≤x)(2.28)
其中,F(-∞)=0,F(+∞)=1。

更一般地,对随机向量X={X1,X2,…,XN},也可以定义相应的联合累计分布函数为:
F(x)=P(X1≤x1,X2≤x2,…,XN≤xN)(2.29)
对连续的随机变量X和随机向量X,还可以进一步定义概率密度函数(probability density function):
p(x)=dF(x)dx(2.30)
以及联合概率密度函数:
p(x)=NF(x)x1…xN(2.31)
如果p(x,y)是随机变量X和Y的联合概率密度函数,那么p(x,y)关于X和Y的边缘分布定义为:
p(x)=∑y∈val(Y)p(x,y)(2.32)

p(y)=∑x∈val(X)p(x,y)(2.33)
如果X的概率密度函数是恒正的,即p(x)>0,那么在给定X时,Y的条件概率密度函数定义为:
p(yx)=p(x,y)p(x)(2.34)
最简单的概率密度函数是均匀分布,记作X~Unif[a,b],即:
p(x)=1/(b-a),a≤x≤b

0,其他(2.35)
另一个常用的概率密度函数是高斯分布,记作X~N(μ,σ2),即:
p(x)=12πσe-(x-μ)22σ2=12πσexp-(x-μ)22σ2(2.36)
其中μ是X的均值,σ2是X的方差。

对于随机向量X,如果给定一组采样x(l)(1≤l≤N),则其经验分布(empirical distribution)为
p(X)=1N∑Nl=1δ(X-x(l))(2.37)
其中,δ是Dirac函数,又称为冲击响应函数,即δ(x)=1,x=0

0,x≠0

如果三个随机变量的集合X、Y、Z对概率分布P满足P(X,YZ)=P(XZ)P(YZ),那么称集合X和Y在分布P中条件独立于集合Z,记作(X⊥YZ)。其中集合Z中的变量通常称为观测变量。如果Z是空集,可以把(X⊥Y)记作(X⊥Y),并且称X和Y是边缘独立的(marginally independent)。

###2.2.3期望和方差

离散随机变量X的期望定义为
E(X)=EP(X)=∑x∈val(X)xP(x)(2.38)
连续随机变量X的期望定义为
E(X)=Ep(X)=∫val(X)xp(x)dx(2.39)
随机变量X的方差定义为
var(X)=E((X-E(X)2)=E(X2)-E2(X)(2.40)
两个随机变量X和Y的期望满足线性关系:
E(X+Y)=E(X)+E(Y)(2.41)
如果X和Y独立,那么
E(X•Y)=E(X)•E(Y)(2.42)

var(X+Y)=var(X)+var(Y)(2.43)
此外,对任意ε>0,期望和方差满足切比雪夫不等式(Chebyshev inequality):
P(X-E(X)≥ε)≤var(X)ε2(2.44)

相关文章
|
17天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
25 0
|
18天前
|
机器学习/深度学习 并行计算 算法
R语言深度学习不同模型对比分析案例
R语言深度学习不同模型对比分析案例
28 0
|
20天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
18 0
|
3月前
|
机器学习/深度学习 人工智能 物联网
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进,还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT), 也出现了直接应用于时间序列的可能性的LLM,以及新形式的时间序列正则化/规范化技术(san)。
79 1
|
3月前
|
机器学习/深度学习
分享3个深度学习练手的小案例
分享3个深度学习练手的小案例
22 0
|
5月前
|
机器学习/深度学习 传感器 自动驾驶
【计算机视觉】一、多任务深度学习网络的概念及在自动驾驶中的应用讲解(图文解释 超详细)
【计算机视觉】一、多任务深度学习网络的概念及在自动驾驶中的应用讲解(图文解释 超详细)
47 0
|
5月前
|
机器学习/深度学习 存储 算法
强化深度学习中使用Dyna-Q算法和优先遍历算法在机器人实战中的对比分析(超详细 附源码)
强化深度学习中使用Dyna-Q算法和优先遍历算法在机器人实战中的对比分析(超详细 附源码)
32 0
|
6月前
|
机器学习/深度学习 数据采集 算法
基于LSTM深度学习网络的时间序列分析matlab仿真
基于LSTM深度学习网络的时间序列分析matlab仿真
|
7月前
|
机器学习/深度学习 自然语言处理 算法
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
2095 0
|
7月前
|
机器学习/深度学习 数据可视化 TensorFlow
【深度学习】实验08 TensorBoard案例
【深度学习】实验08 TensorBoard案例
32 0