深度学习导论及案例分析》一2.3信息论的基本概念-阿里云开发者社区

开发者社区> 华章计算机> 正文

深度学习导论及案例分析》一2.3信息论的基本概念

简介: #### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第1章,第1.1节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3信息论的基本概念 一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。
+关注继续查看

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.3节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3信息论的基本概念

一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。熵(entropy)是信息论的一个基本概念。

离散随机变量X的熵定义为
H(X)=∑x∈val(X)P(x)logP(x)(2.45)
两个离散随机变量X和Y的联合熵(joint entropy)定义为
H(X,Y)=∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.46)
在给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
H(YX)=∑x∈val(X)P(x)H(YX=x)=∑x∈val(X)P(x)-∑y∈val(Y)P(yx)logP(yx)

=-∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.47)
关于联合熵和条件熵,有熵的链式法则(chain rule for entropy),即
H(X,Y)=H(X)+H(YX)(2.48)

H(X1,X2,…,Xn)=H(X1)+H(X2X1)+…+H(XnX1,…,Xn-1)(2.49)
两个随机变量X和Y的互信息定义为
I(X,Y)=H(X)-H(YX)=H(X)+H(Y)-H(X,Y)

=∑x,yP(x,y)logP(x,y)P(x)P(y)≥0(2.50)
两个概率分布P(X)和Q(X)的KL散度(KullbackLeibler divergence),又称相对熵,定义为
KL(PQ)=∑x∈val(X)P(x)logP(x)Q(x)=EPP(x)Q(x)(2.51)
显然,当两个概率分布完全相同,即P=Q时,其相对熵为0。当两个概率分布的差别增加时,其相对熵将增大。此外,联合相对熵和条件相对熵也存在所谓的链式法则:
KL(P(X,Y)Q(X,Y))=KL(P(X)Q(X))+KL(P(YX)Q(YX))(2.52)
如果用模型分布Q(X)来近似一个未知概率分布P(X),那么还可以用交叉熵(cross entropy)来表达模型分布对未知分布的逼近程度:
CE(P,Q)=H(X)+KL(PQ)=-∑x∈val(X)P(x)logQ(x)=EPlog1Q(x)(2.53)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
软考新思维--2017年上半年信息系统项目管理师上午试题分析与答案(试题6-10题)
         2017年上半年信息系统项目管理师上午试题分析与答案(试题1-5题) 6.()不是获取需求的方法。A、问卷调查B、会议讨论C、获取原型D、决策分析【软考新思维】需求是获取的得来的,不是决策得来的。
763 0
IDA反汇编/反编译静态分析iOS模拟器程序(四)反汇编的符号信息与改名
首先看看windows IDA和xcode的反汇编有什么不同。因为不确定直接分析UIKit的代码会不会有法律问题,还是自己写个例子吧。分析UIKit的时候因为没有完整的debugging symbols,所以得到的反汇编信息会比自己写的代码较少。
810 0
PostgreSQL · 特性分析 · 统计信息计算方法
一条SQL在PG中的执行过程是: ----> SQL输入 ----> 解析SQL,获取解析后的语法树 ----> 分析、重写语法树,获取查询树 ----> 根据重写、分析后的查询树计算各路径代价,从而选择一条成本最优的执行树 ----> 根据执行树进行执行 ----> 获取结果并返回
1535 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载