深度学习常见的损失函数

本文涉及的产品
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 深度学习常见的损失函数

1 分类任务

在深度学习中, 损失函数是用来衡量模型参数的质量的函数, 衡量的方式是比较网络输出和真实输出的差异,损失函数在不同的文献中名称是不一样的,主要有以下几种命名方式:


在深度学习的分类任务中使用最多的是交叉熵损失函数,所以在这里我们着重介绍这种损失函数。

1.1 多分类任务

在多分类任务通常使用softmax将logits转换为概率的形式,所以多分类的交叉熵损失也叫做softmax损失,它的计算方法是:

其中,y是样本x属于某一个类别的真实概率,而f(x)是样本属于某一类别的预测分数,S是softmax函数,L用来衡量p,q之间差异性的损失结果。

例子:

上图中的交叉熵损失为:

从概率角度理解,我们的目的是最小化正确类别所对应的预测概率的对数的负值,如下图所示:

在tf.keras中使用CategoricalCrossentropy实现,如下所示:

# 导入相应的包
import tensorflow as tf
# 设置真实值和预测值
y_true = [[0, 1, 0], [0, 0, 1]]
y_pred = [[0.05, 0.95, 0], [0.1, 0.8, 0.1]]
# 实例化交叉熵损失
cce = tf.keras.losses.CategoricalCrossentropy()
# 计算损失结果
cce(y_true, y_pred).numpy()

结果为:

1.176939

1.2 二分类任务

在处理二分类任务时,我们不在使用softmax激活函数,而是使用sigmoid激活函数,那损失函数也相应的进行调整,使用二分类的交叉熵损失函数

其中,y是样本x属于某一个类别的真实概率,而y^是样本属于某一类别的预测概率,L用来衡量真实值与预测值之间差异性的损失结果。

在tf.keras中实现时使用BinaryCrossentropy(),如下所示:

# 导入相应的包
import tensorflow as tf
# 设置真实值和预测值
y_true = [[0], [1]]
y_pred = [[0.4], [0.6]]
# 实例化二分类交叉熵损失
bce = tf.keras.losses.BinaryCrossentropy()
# 计算损失结果
bce(y_true, y_pred).numpy()

结果为:

0.5108254

2 回归任务

回归任务中常用的损失函数有以下几种:

2.1 MAE损失

Mean absolute loss(MAE)也被称为L1 Loss,是以绝对误差作为距离:

曲线如下图所示:

特点是:由于L1 loss具有稀疏性,为了惩罚较大的值,因此常常将其作为正则项添加到其他loss中作为约束。L1 loss的最大问题是梯度在零点不平滑,导致会跳过极小值。

在tf.keras中使用MeanAbsoluteError实现,如下所示:

# 导入相应的包
import tensorflow as tf
# 设置真实值和预测值
y_true = [[0.], [0.]]
y_pred = [[1.], [1.]]
# 实例化MAE损失
mae = tf.keras.losses.MeanAbsoluteError()
# 计算损失结果
mae(y_true, y_pred).numpy()

结果为:

1.0

2.2 MSE损失

Mean Squared Loss/ Quadratic Loss(MSE loss)也被称为L2 loss,或欧氏距离,它以误差的平方和作为距离:

曲线如下图所示:

特点是:L2 loss也常常作为正则项。当预测值与目标值相差很大时, 梯度容易爆炸。

在tf.keras中通过MeanSquaredError实现:

# 导入相应的包
import tensorflow as tf
# 设置真实值和预测值
y_true = [[0.], [1.]]
y_pred = [[1.], [1.]]
# 实例化MSE损失
mse = tf.keras.losses.MeanSquaredError()
# 计算损失结果
mse(y_true, y_pred).numpy()

结果为:

0.5

2.3 smooth L1 损失

Smooth L1损失函数如下式所示:

其中:𝑥=f(x)−y 为真实值和预测值的差值。

从上图中可以看出,该函数实际上就是一个分段函数,在[-1,1]之间实际上就是L2损失,这样解决了L1的不光滑问题,在[-1,1]区间外,实际上就是L1损失,这样就解决了离群点梯度爆炸的问题。通常在目标检测中使用该损失函数。


在tf.keras中使用Huber计算该损失,如下所示:

# 导入相应的包
import tensorflow as tf
# 设置真实值和预测值
y_true = [[0], [1]]
y_pred = [[0.6], [0.4]]
# 实例化smooth L1损失
h = tf.keras.losses.Huber()
# 计算损失结果
h(y_true, y_pred).numpy()

结果:

0.18

3 总结

  • 知道分类任务的损失函数

多分类的交叉熵损失函数和二分类的交叉熵损失函数

  • 知道回归任务的损失函数

MAE,MSE,smooth L1损失函数

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 测试技术
深度学习中损失函数和激活函数的选择
深度学习中损失函数和激活函数的选择
30 0
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习05】 交叉熵损失函数
不同的信息,含有不同的信息量,假设下列对阵表中阿根廷的夺冠概率是1/8,A同学告诉我阿根廷夺冠了,那么这个信息量就很大了(因为它包括了阿根廷进了四强,决赛);B同学告诉我阿根廷进决赛了,那么这个信息量就较小。
107 0
|
机器学习/深度学习 文字识别 算法
深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测
深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测
|
机器学习/深度学习 搜索推荐 PyTorch
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
本文的结构是首先介绍一些常见的损失函数,然后介绍一些个性化的损失函数实例。
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与CV教程(3) | 损失函数与最优化
本文讲解了损失函数(数据损失与正则损失)、多类 SVM 损失与Softmax损失比较、梯度计算方法(数值梯度与解析梯度)、梯度下降优化算法等【对应 CS231n Lecture 3】
1476 3
深度学习与CV教程(3) | 损失函数与最优化
|
机器学习/深度学习 存储 人工智能
【深度学习之美】损失函数减肥用,神经网络调权重(入门系列之六)
有人开玩笑说,男人有两大烦恼:一是把别人的肚子搞大了,二是把自己的肚子搞大了。对于后者,除了减(jian)肥(shen),似乎别无他法。可你知道吗?这减肥背后的机理,和前馈神经网络利用损失函数,来反向调节各个神经元之间的连接权重,其实是一样一样的。为啥咧?
2958 1
|
1天前
|
机器学习/深度学习 自然语言处理 算法
深度学习在自然语言处理中的进展与应用
本文探讨了深度学习技术在自然语言处理领域的最新进展和应用。通过分析深度学习模型的发展历程及其在文本分类、情感分析、语义理解等任务中的成功案例,展示了这些技术如何推动了自然语言处理的前沿应用。同时,文章还讨论了当前技术面临的挑战以及未来发展的趋势。
24 11
|
3天前
|
机器学习/深度学习 人工智能 数据可视化
深度学习在图像识别中的应用与挑战
【6月更文挑战第22天】本文将深入探讨深度学习技术在图像识别领域的应用及其面临的挑战。首先,我们将介绍深度学习的基本概念和关键技术,然后详细解析其在图像识别中的具体应用,包括卷积神经网络(CNN)的工作原理和实例。最后,我们将讨论深度学习在图像识别领域面临的主要挑战,如过拟合、数据需求大和模型解释性差等问题,并提出可能的解决方案。