1.信息熵
简介:
描述一组样本的不确定程度。
例如一组样本:
样本1 国庆假期选择出游的概率 样本2 国庆假期选择出游的概率
张三 0.2 Jack Zhang 0.6
李四 0.2 Eric Li 0.1
王五 0.2 Vicky Wang 0.1
赵六 0.2 Nicholas Zhao 0.1
钱七 0.2 Tsien 0.1
求信息熵:
样本1 样本2
= - (0.2log(0.2) + 0.2log(0.2) + 0.2log(0.2)) … = - (0.6log(0.6) + 0.1log(0.1) + 0.1log(0.1)) …
= - ((0.2 -0.699) + (0.2 -0.699) + (0.2 -0.699)) … = - ((0.6 -0.2218) + (0.1 -1) + (0.1 -1)) …
= 0.699 = 0.53308
结论:
样本1中的学生选择国庆假期出游的不确定性比较大。
2.交叉熵
简介:
度量预测样本与真实样本之间的差距。NN中最常见的名词之一,但除了会用,还可以再多了解一下。
(注:交叉熵有多种变形公式)
例如一组样本:
预测分类 预测标签( Q ) 真实标签( P )
张三国庆去甘肃 0.7 1
张三国庆去青海 0.1 0
张三国庆去宁夏 0.2 0
求交叉熵:
H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549
结论:
预测结果越准确,交叉熵越小。
3.KL散度
简介:
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。
KL散度 = 交叉熵-信息熵
我们知道Log(1)=0,分类问题结果往往是one hot形式的,那么上面公式就变成了:
KL散度 = 交叉熵 - 0
所以有时候直接求交叉熵就行了。
4.Softmax
简介:
将数字结果转换为概率,所以对于非分类问题的神经网络,要去掉Softmax操作。
这个比较常见,推导就不做了。