信息熵、KL散度、交叉熵、softmax函数学习小记

2023-09-17 148 发布于江苏

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 信息熵、KL散度、交叉熵、softmax函数学习小记

1.信息熵

简介：
描述一组样本的不确定程度。

例如一组样本：

样本1 国庆假期选择出游的概率样本2 国庆假期选择出游的概率
张三 0.2 Jack Zhang 0.6
李四 0.2 Eric Li 0.1
王五 0.2 Vicky Wang 0.1
赵六 0.2 Nicholas Zhao 0.1
钱七 0.2 Tsien 0.1
求信息熵：

样本1 样本2
= - (0.2log(0.2) + 0.2log(0.2) + 0.2log(0.2)) … = - (0.6log(0.6) + 0.1log(0.1) + 0.1log(0.1)) …
= - ((0.2 -0.699) + (0.2 -0.699) + (0.2 -0.699)) … = - ((0.6 -0.2218) + (0.1 -1) + (0.1 -1)) …
= 0.699 = 0.53308
结论：

样本1中的学生选择国庆假期出游的不确定性比较大。

2.交叉熵

简介：
度量预测样本与真实样本之间的差距。NN中最常见的名词之一，但除了会用，还可以再多了解一下。

（注：交叉熵有多种变形公式）

例如一组样本：

预测分类预测标签( Q ) 真实标签( P )
张三国庆去甘肃 0.7 1
张三国庆去青海 0.1 0
张三国庆去宁夏 0.2 0
求交叉熵：

H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549

结论：

预测结果越准确，交叉熵越小。

3.KL散度

简介：
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。

KL散度 = 交叉熵-信息熵

我们知道Log(1)=0，分类问题结果往往是one hot形式的，那么上面公式就变成了：
KL散度 = 交叉熵 - 0

所以有时候直接求交叉熵就行了。

4.Softmax

简介：
将数字结果转换为概率，所以对于非分类问题的神经网络，要去掉Softmax操作。

这个比较常见，推导就不做了。

信息熵、KL散度、交叉熵、softmax函数学习小记

1.信息熵

2.交叉熵

3.KL散度

4.Softmax

大数据与机器学习

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

信息熵、KL散度、交叉熵、softmax函数学习小记

1.信息熵

2.交叉熵

3.KL散度

4.Softmax

大数据与机器学习

热门文章

最新文章

相关电子书