简单的交叉熵损失函数,你真的懂了吗?

简介: 简单的交叉熵损失函数,你真的懂了吗?


说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:


image.png


我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。


1   交叉熵损失函数的数学原理


我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。


Sigmoid 函数的表达式和图形如下所示:

image.png

其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出 。

image.png

image.png

image.png


2   交叉熵损失函数的直观理解


可能会有读者说,我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢?而不是仅仅记住这个公式。好问题!接下来,我们从图形的角度,分析交叉熵函数,加深大家的理解。


首先,还是写出单个样本的交叉熵损失函数:

image.png

image.png

看了 L 的图形,简单明了!横坐标是预测输出,纵坐标是交叉熵损失函数 L。显然,预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。因此,函数的变化趋势完全符合实际需要的情况。


当 y = 0 时:


image.png


这时候,L 与预测输出的关系如下图所示:

image.png

同样,预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。函数的变化趋势也完全符合实际需要的情况。


从上面两种图,可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1,L 都表征了预测输出与 y 的差距。


另外,重点提一点的是,从图形中我们可以发现:预测输出与 y 差得越多,L 的值越大,也就是说对当前模型的 “ 惩罚 ” 越大,而且是非线性增大,是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。



3交叉熵损失函数的其它形式


什么?交叉熵损失函数还有其它形式?没错!我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉熵损失函数。


这种形式下假设真实样本的标签为 +1 和 -1,分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质:

image.png

image.png

image.png

image.png

image.png


4   总结


本文主要介绍了交叉熵损失函数的数学原理和推导过程,也从不同角度介绍了交叉熵损失函数的两种形式。第一种形式在实际应用中更加常见,例如神经网络等复杂模型;第二种多用于简单的逻辑回归模型。


相关文章
|
机器学习/深度学习 算法 数据挖掘
交叉验证之KFold和StratifiedKFold的使用(附案例实战)
交叉验证之KFold和StratifiedKFold的使用(附案例实战)
3368 0
|
6月前
|
人工智能 安全 架构师
不只是聊天:从提示词工程看AI助手的优化策略
不只是聊天:从提示词工程看AI助手的优化策略
447 119
|
SQL 数据挖掘 数据库
HiveSQL分位数函数percentile()使用详解+实例代码
HiveSQL分位数函数percentile()使用详解+实例代码
7290 0
HiveSQL分位数函数percentile()使用详解+实例代码
|
4月前
|
数据采集 SQL 数据可视化
数据处理的流程是什么?如何进行数据预处理?
本文深入浅出地讲解了数据处理的核心环节——数据预处理,剖析了原始数据常见的缺失、错误、重复、不一致等问题,并提供可落地的四步操作指南:诊断问题、制定规则、执行清洗、检验调整。强调“垃圾进,垃圾出”,预处理是数据可信分析的基石,并建议结合业务理解与工具(如FineDataLink)提升效率,助力从零起步的数据团队逐步实现规范化、自动化处理。
|
8月前
|
Linux 虚拟化 iOS开发
Windows Server 2022 OVF (2025 年 8 月更新) - VMware 虚拟机模板
Windows Server 2022 OVF (2025 年 8 月更新) - VMware 虚拟机模板
325 3
Windows Server 2022 OVF (2025 年 8 月更新) - VMware 虚拟机模板
|
机器学习/深度学习 PyTorch 算法框架/工具
【深度学习】Pytorch Tensor 张量
【1月更文挑战第26天】【深度学习】Pytorch Tensor 张量
2024年2月最新易支付系统全开源
2024年2月最新易支付系统全开源
482 3
|
小程序
基于微信小程序的电器维修系统设计与实现(源码+lw+部署文档+讲解等)
基于微信小程序的电器维修系统设计与实现(源码+lw+部署文档+讲解等)
384 0
基于微信小程序的电器维修系统设计与实现(源码+lw+部署文档+讲解等)
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
879 0
【Gurobi报错解决】Solver not applicable (gurobi does not support signomial constraints)
【Gurobi报错解决】Solver not applicable (gurobi does not support signomial constraints)
1315 0

热门文章

最新文章

下一篇
开通oss服务