神经网络的交叉熵损失函数-阿里云开发者社区

神经网络的交叉熵损失函数

2017-07-04 1690

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 常见损失函数0-1损失函数 L(Y,f(X))={1,0Y != f(X)Y = f(X)L(Y,f(X))=\begin{cases}1,& \text{Y != f(X)}\\0& ...

常见损失函数

0-1损失函数
$L(Y,f(X))=\begin{cases}1,& \text{Y != f(X)}\\0& \text{Y = f(X)}\end{cases}$
平方损失函数
$L(Y,f(X))=(Y-f(X))^{2}$
绝对损失函数 $L(Y,f(X))=|(Y-f(X))|$
对数损失函数 $L(Y,P(Y|X))=-logP(Y|X)$

常见的损失函数包含以上几个。

平方损失函数

在神经网络中样本的平方损失函数一般会定义为：
$E_d = \frac{1}{2}\sum_{i}(z_i-y_i)^2$ ，方便求导后约掉系数。

使用误差逆传播训练神经网络时会使用梯度下降法来更新每个神经网络中的权重，
根据链式求导法可以得到权重更新公式，

\partial E d \partial w j i = \partial E d \partial n o d e j \partial n o d e j \partial w j i = \partial E d \partial n o d e j \partial \sum i w j i x j i \partial w j i = \partial E d \partial n o d e j x j i

$\frac{\partial{E_d}}{\partial{w_{ji}}} = \frac{\partial{E_d}}{\partial{node_j}}\frac{\partial{node_j}}{\partial{w_{ji}}} =\frac{\partial{E_d}}{\partial{node_j}}\frac{\partial{\sum_{i}{w_{ji}}x_{ji}}}{\partial{w_{ji}}} =\frac{\partial{E_d}}{\partial{node_j}}x_{ji}$
此时对于输出层，权重更新公式为

\partial E d \partial w j i = \partial E d \partial y j \partial y j \partial n o d e j x j i

$\frac{\partial{E_d}}{\partial{w_{ji}}} = \frac{\partial{E_d}}{\partial{y_j}}\frac{\partial{y_j}}{\partial{node_j}}x_{ji}$

sigmoid激活函数

如果神经元使用sigmoid激活函数，即 $y = \frac{1}{1+e^{-z}}$
，函数图如下，
这里写图片描述

则梯度下降法更新权重时，会涉及到sigmoid函数的导数，这个导数的形状大致如下：
这里写图片描述
可以看到导数两边的值基本都接近0，也就是说两边的斜率很平缓，两边的点在使用梯度下降时下降很缓慢，可能会影响训练最终效果。

交叉熵损失函数

针对以上不足，有两个方向来避免，一是从激活函数下手，一个是从损失函数下手。这里我们不换激活函数，还是用sigmoid函数，于是引入了交叉熵损失函数。

L = \sum i [z i l n y i + (1 - z i) l n (1 - y i)]

$L = \sum_{i} [z_ilny_i + (1-z_i)ln(1-y_i)]$
这时再看权重更新公式，

\partial L \partial w j i = \partial L \partial n o d e j \partial n o d e j \partial w j i = \partial L \partial n o d e j \partial \sum i w j i x j i \partial w j i = \partial L \partial n o d e j x j i

$\frac{\partial{L}}{\partial{w_{ji}}} = \frac{\partial{L}}{\partial{node_j}}\frac{\partial{node_j}}{\partial{w_{ji}}} =\frac{\partial{L}}{\partial{node_j}}\frac{\partial{\sum_{i}{w_{ji}}x_{ji}}}{\partial{w_{ji}}} =\frac{\partial{L}}{\partial{node_j}}x_{ji}$
此时对于输出层，权重更新公式为

\partial L \partial w j i = \partial L \partial y j \partial y j \partial n o d e j x j i = x j i (z j - y j)

$\frac{\partial{L}}{\partial{w_{ji}}} = \frac{\partial{L}}{\partial{y_j}}\frac{\partial{y_j}}{\partial{node_j}}x_{ji}=x_{ji}(z_j-y_j)$
可以看到梯度下降已经不与sigmoid的导数相关了，而是由误差来影响，当误差较大时则下降较快，让梯度下降法更有效率，避免了训练慢的问题。

以下是广告和相关阅读

========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

相关阅读：
机器学习之神经网络

欢迎关注：

这里写图片描述

神经网络的交叉熵损失函数

常见损失函数

平方损失函数

sigmoid激活函数

交叉熵损失函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

神经网络的交叉熵损失函数

常见损失函数

平方损失函数

sigmoid激活函数

交叉熵损失函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景