信息熵、KL散度、交叉熵、softmax函数学习小记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 信息熵、KL散度、交叉熵、softmax函数学习小记

1.信息熵

简介:
描述一组样本的不确定程度。

例如一组样本:

样本1 国庆假期选择出游的概率 样本2 国庆假期选择出游的概率
张三 0.2 Jack Zhang 0.6
李四 0.2 Eric Li 0.1
王五 0.2 Vicky Wang 0.1
赵六 0.2 Nicholas Zhao 0.1
钱七 0.2 Tsien 0.1
求信息熵:

样本1 样本2
= - (0.2log(0.2) + 0.2log(0.2) + 0.2log(0.2)) … = - (0.6log(0.6) + 0.1log(0.1) + 0.1log(0.1)) …
= - ((0.2 -0.699) + (0.2 -0.699) + (0.2 -0.699)) … = - ((0.6 -0.2218) + (0.1 -1) + (0.1 -1)) …
= 0.699 = 0.53308
结论:

样本1中的学生选择国庆假期出游的不确定性比较大。

2.交叉熵

简介:
度量预测样本与真实样本之间的差距。NN中最常见的名词之一,但除了会用,还可以再多了解一下。

(注:交叉熵有多种变形公式)

例如一组样本:

预测分类 预测标签( Q ) 真实标签( P )
张三国庆去甘肃 0.7 1
张三国庆去青海 0.1 0
张三国庆去宁夏 0.2 0
求交叉熵:

H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549

结论:

预测结果越准确,交叉熵越小。

3.KL散度

简介:
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。

KL散度 = 交叉熵-信息熵

我们知道Log(1)=0,分类问题结果往往是one hot形式的,那么上面公式就变成了:
KL散度 = 交叉熵 - 0

所以有时候直接求交叉熵就行了。

4.Softmax

简介:
将数字结果转换为概率,所以对于非分类问题的神经网络,要去掉Softmax操作。

这个比较常见,推导就不做了。

相关文章
|
8月前
|
机器学习/深度学习
为什么在二分类问题中使用交叉熵函数作为损失函数
为什么在二分类问题中使用交叉熵函数作为损失函数
301 2
|
3月前
|
机器学习/深度学习 自然语言处理
交叉熵损失
【10月更文挑战第2天】
|
8月前
|
机器学习/深度学习 JavaScript Python
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
153 1
“交叉熵”反向传播推导
“交叉熵”反向传播推导
145 0
|
机器学习/深度学习
损失函数:均方误和交叉熵,激活函数的作用
损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
206 1
损失函数:均方误和交叉熵,激活函数的作用
|
机器学习/深度学习 算法
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-1
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-1
|
机器学习/深度学习
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2
|
机器学习/深度学习 人工智能 JavaScript
【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
对抗神经网络(如DIM模型)及图神经网络(如DGI模型)中,使用互信息来作为无监督方式提取特征的方法。
952 0
|
机器学习/深度学习
|
机器学习/深度学习 数据挖掘
KL散度和交叉熵的对比介绍
KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释和比较。
772 0