Cross Entropy Loss 交叉熵损失函数公式推导

简介: 表达式 输出标签表示为{0,1}时,损失函数表达式为: $L = -[y log \hat{y} + (1-y)log(1- \hat{y})]$ 二分类 二分类问题,假设 y∈{0,1} 正例:$P(y = 1| x) = \hat{y}$ 反例:$P(y=0|x) = 1-\hat{y}$ 取似然函数 似然函数就是所有样本在参数θ下发生概率最大的那种情况,由于样本独立同分布,因此概率最大的情况就是每个样本发生概率的连乘。

表达式

输出标签表示为{0,1}时,损失函数表达式为:

$L = -[y log \hat{y} + (1-y)log(1- \hat{y})]$

二分类

二分类问题,假设 y∈{0,1}

正例:$P(y = 1| x) = \hat{y}$ 公式1

反例:$P(y=0|x) = 1-\hat{y}$ 公式2

联立

将上述两式连乘。

$P(y|x) = \hat{y}^{y} * (1-\hat{y})^{(1-y)}$ ;其中y∈{0,1} 公式3

当y=1时,公式3和公式1一样。
当y=0时,公式3和公式2一样。

取对数

取对数,方便运算,也不会改变函数的单调性。
$ logp(y|x) =ylog\hat{y} + (1-y)log(1-\hat{y})$ 公式4

我们希望$P(y|x)$越大越好,即让负值$-logP(y|x)$越小越好,得到损失函数为:
$L = -[y log \hat{y} + (1-y)log(1- \hat{y})]$ 公式5

参考阅读

简单的交叉熵损失函数,你真的懂了吗?
确定不收藏?机器学习必备的分类损失函数速查手册

补充

上面说的都是一个样本的时候,多个样本的表达式是:

多个样本的概率即联合概率,等于每个的乘积。
$p(y|x) = \prod _{i}^{m} p(y^{(i)}| x^{(i)})$

$log p(y|x) = \sum _{i}^{m} log p(y^{(i)}| x^{(i)})$

由公式4和公式5得到
$logp(y^{(i)}| x^{(i)}) = - L(y^{(i)}| x^{(i)})$

$ logp(y^{(i)}| x^{(i)})=-\sum _{i}^{m}L(y^{(i)}| x^{(i)}) $

加上$\frac{1}{m}$对式子进行缩放,便于计算。

Cost (min) : $J(w,b) =\frac{1}{m}\sum _{i}^{m} L(y^{(i)}| x^{(i)}) $

或者写作:
$J = - \frac{1}{m}\Sigma_{i=1}^{m}[y^{(i)} log \hat{y}^{(i)} + (1-y^{(i)})log(1- \hat{y}^{(i)})]$

相关文章
|
人工智能 缓存 并行计算
技术改变AI发展:Ada Lovelace架构解读及RTX 4090性能测试分析(系列三)
简介:随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022年9月20日发布的RTX 4090一起公布。
142504 62
技术改变AI发展:Ada Lovelace架构解读及RTX 4090性能测试分析(系列三)
|
机器学习/深度学习 人工智能 自然语言处理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
|
容器
Unreal Niagara粒子入门1
Unreal Niagara粒子入门1
309 1
Unreal Niagara粒子入门1
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
92页的llama 3.1技术报告,我替你们啃下来了
|
编解码 自然语言处理 机器人
通义千问Qwen2-VL开源,API可直接调用!
通义千问宣布开源第二代视觉语言模型Qwen2-VL,并推出2B、7B两个尺寸及其量化版本模型。同时,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台,用户可直接调用。
6247 10
|
区块链 开发者
libp2p是什么?
libp2p是什么?
252 0
|
机器学习/深度学习
大模型中的Scaling Law是什么?
【2月更文挑战第9天】大模型中的Scaling Law是什么?
17387 3
大模型中的Scaling Law是什么?
|
机器学习/深度学习 算法 数据挖掘
【机器学习】在使用K-means聚类算法时,如何选择K的值?
【5月更文挑战第11天】【机器学习】在使用K-means聚类算法时,如何选择K的值?
|
机器学习/深度学习 人工智能 算法
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
1225 0
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头