Java开发者的神经网络进阶指南:深入探讨交叉熵损失函数

简介: 今天来讲一下损失函数——交叉熵函数,什么是损失函数呢?大体就是真实与预测之间的差异,这个交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布 p,q 的差异,其中 p 表示真实分布,q 表示预测分布,那么 H(p,q)就称为交叉熵:

前言

今天来讲一下损失函数——交叉熵函数,什么是损失函数呢?大体就是真实与预测之间的差异,这个交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布 p,q 的差异,其中 p 表示真实分布,q 表示预测分布,那么 H(p,q)就称为交叉熵:

image.png

交叉熵是一种常用的损失函数,特别适用于神经网络训练中。在这种函数中,我们用 p 来表示真实标记的分布,用 q 来表示经过训练后模型预测的标记分布。通过交叉熵损失函数,我们可以有效地衡量模型预测分布 q 与真实分布 p 之间的相似性。


交叉熵函数是逻辑回归(即分类问题)中常用的一种损失函数。

前置知识

有些同学和我一样,长时间没有接触数学,已经完全忘记了。除了基本的加减乘除之外,对于交叉熵函数中的一些基本概念,他们可能只记得和符号。今天我会和大家一起回顾一下,然后再详细解释交叉熵函数。首先,我们来简单了解一下指数和对数的基本概念。

指数

image.png 是一个典型的立方函数,大家对平方和立方可能都有所了解。指数级增长的函数具有特定的增长规律,让我们更深入地记忆和理解它们的分布特性。

1718968484344.jpg

这个概念非常简单,无需举例子来说明。重要的是要记住一个关键点:指数函数的一个特殊性质是它们都经过点(0,1),这意味着任何数的0次幂都等于1。

对数

好的,铺垫已经完成了。现在让我们继续探讨对数函数的概念。前面讲解了指数函数,对数函数则是指数函数的逆运算。如果有一个指数函数表达式为 image.png ,那么它的对数表达式就是 image.png 。为了方便表示,我们通常将左侧的结果记为 image.png ,右侧的未知函数记为 image.png ,因此对数函数最终表示为 image.png image.png 。为了更加深刻地记忆这一点,让我们看一下它的分布图例。

1718968525562.jpg

当讨论指数函数时,我们了解到其图像在( (0,1) ) 处穿过横轴。然而,当我们转而讨论对数函数时,其表示形式导致了这一点被调换至( (1,0) ),因此对于对数函数而言,它的恒过点即为( (1,0) )。


剩下关于对数的变换我就不再详细讲解了。现在让我们深入探讨一下熵的概念。

交叉熵函数

在探讨交叉熵之前,我们先来了解一下熵的概念。熵是根据已知的实际概率计算信息量的度量,那么信息量又是什么呢?


信息论中,信息量的表示方式: image.png

image.png :表示一个事件。

image.png :表示一个事件发生的概率。

image.png :表示某一个事件发生后会有多大的信息量,概率越低,所发生的信息量也就越大。


这里为了更好地说明,我来举个例子。比如说有些人非常喜欢追星。那么,按照一般的逻辑来说,我们可以谈谈明星结婚这件事的概率分布:

image.png

从上面的例子可以看出,如果一个事件的概率很低,那么它所带来的信息量就会很大。比如,某某明星又离婚了!这个消息的信息量就非常大。相比之下,“奋斗”事件的信息量就显得小多了。


按照熵的公式进行计算,那么这个故事的熵即为:

image.png

计算得出:

image.png image.png

相对熵(KL散度)

上面我们讨论了熵的概念及其应用,熵仅考虑了真实概率分布。然而,我们的损失函数需要考虑真实概率分布与预测概率分布之间的差异。因此,我们需要进一步研究相对熵(KL散度),其计算公式为:

image.png

哎,这其实就是在原先的公式中加了一个 image.png 而已。对了,这里的 image.png 指的是加上了预测概率分布 image.png 。我们知道对数函数的对称点是(1,0)。因此,很容易推断出,当真实分布 image.png 和预测分布 image.png 越接近时,KL散度 image.png 的值就越小。当它们完全相等时,KL散度恒为0,即在点(1,0)。这样一来,我们就能够准确地衡量真实值与预测值之间的差异分布了。但是没有任何一个损失函数是能为0 的。

当谈到相对熵已经足够时,为何需要进一步讨论交叉熵呢?让我们继续深入探讨这个问题。

交叉熵

重头戏来了,我们继续看下相对熵函数的表达式:

image.png

这里注意下, image.png 是可以变换的,也就是说 image.png ,这么说,相对熵转换后的公式就是:

image.png image.png

当我们考虑到 image.png 在处理不同分布时并没有太大作用时,这是因为 image.png 的熵始终保持不变,它是由真实的概率分布计算得出的。因此,损失函数只需专注于后半部分 image.png 即可。

所以最终的交叉熵函数为:

image.png

这里需要注意的是,上面显示的是一个样本计算出的多个概率的熵值。通常情况下,我们考虑的是多个样本,而不仅仅是单一样本。因此,我们需要在前面添加样本的数量,最终表示为:

image.png

代码实现

import numpy as np

def cross_entropy(y_true, y_pred):
    # 用了一个最小值
    epsilon = 1e-15
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
    
    # Computing cross entropy
    ce = - np.sum(y_true * np.log(y_pred))
    return ce

# Example usage:
y_true = np.array([1, 0, 1])
y_pred = np.array([0.9, 0.1, 0.8])

ce = cross_entropy(y_true, y_pred)
print(f'Cross Entropy: {ce}')

这里需要解释一下为什么要使用一个最小值。因为对数函数的特性是,其参数 ( x ) 可以无限接近于0,但不能等于0。因此,如果参数等于0,就会导致对数函数计算时出现错误或无穷大的情况。为了避免这种情况,我们选择使用一个足够小的最小值作为阈值,以确保计算的稳定性和正确性。

总结

在本文中,我们深入探讨了交叉熵函数作为一种重要的损失函数,特别适用于神经网络训练中。交叉熵通过衡量真实标签分布与模型预测分布之间的差异,帮助优化模型的性能。我们从信息论的角度解释了交叉熵的概念,它是基于Shannon信息论中的熵而来,用于度量两个概率分布之间的差异。


在讨论中,我们还回顾了指数和对数函数的基本概念,这些函数在交叉熵的定义和理解中起着重要作用。指数函数展示了指数级增长的特性,而对数函数则是其逆运算,用于计算相对熵和交叉熵函数中的对数项。


进一步探讨了熵的概念及其在信息论中的应用,以及相对熵(KL散度)作为衡量两个概率分布差异的指标。最后,我们详细介绍了交叉熵函数的定义和实际应用,以及在Python中的简单实现方式。


通过本文,希望读者能够对交叉熵函数有一个更加深入的理解,并在实际应用中运用此知识来优化和改进机器学习模型的训练效果。

相关文章
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
465 11
|
7月前
|
JSON 移动开发 网络协议
Java网络编程:Socket通信与HTTP客户端
本文全面讲解Java网络编程,涵盖TCP与UDP协议区别、Socket编程、HTTP客户端开发及实战案例,助你掌握实时通信、文件传输、聊天应用等场景,附性能优化与面试高频问题解析。
|
5月前
|
JSON 网络协议 安全
【Java】(10)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
290 1
|
5月前
|
JSON 网络协议 安全
【Java基础】(1)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
311 1
|
5月前
|
机器学习/深度学习 分布式计算 Java
Java与图神经网络:构建企业级知识图谱与智能推理系统
图神经网络(GNN)作为处理非欧几里得数据的前沿技术,正成为企业知识管理和智能推理的核心引擎。本文深入探讨如何在Java生态中构建基于GNN的知识图谱系统,涵盖从图数据建模、GNN模型集成、分布式图计算到实时推理的全流程。通过具体的代码实现和架构设计,展示如何将先进的图神经网络技术融入传统Java企业应用,为构建下一代智能决策系统提供完整解决方案。
546 0
|
存储 网络协议 安全
Java网络编程,多线程,IO流综合小项目一一ChatBoxes
**项目介绍**:本项目实现了一个基于TCP协议的C/S架构控制台聊天室,支持局域网内多客户端同时聊天。用户需注册并登录,用户名唯一,密码格式为字母开头加纯数字。登录后可实时聊天,服务端负责验证用户信息并转发消息。 **项目亮点**: - **C/S架构**:客户端与服务端通过TCP连接通信。 - **多线程**:采用多线程处理多个客户端的并发请求,确保实时交互。 - **IO流**:使用BufferedReader和BufferedWriter进行数据传输,确保高效稳定的通信。 - **线程安全**:通过同步代码块和锁机制保证共享数据的安全性。
550 23
|
安全 网络协议 Java
Java网络编程封装
Java网络编程封装原理旨在隐藏底层通信细节,提供简洁、安全的高层接口。通过简化开发、提高安全性和增强可维护性,封装使开发者能更高效地进行网络应用开发。常见的封装层次包括套接字层(如Socket和ServerSocket类),以及更高层次的HTTP请求封装(如RestTemplate)。示例代码展示了如何使用RestTemplate简化HTTP请求的发送与处理,确保代码清晰易维护。
|
缓存 网络协议 Java
JAVA网络IO之NIO/BIO
本文介绍了Java网络编程的基础与历史演进,重点阐述了IO和Socket的概念。Java的IO分为设备和接口两部分,通过流、字节、字符等方式实现与外部的交互。
453 0
|
网络协议 Java 物联网
Java网络编程知识点
Java网络编程知识点
225 13
|
数据采集 Java API
java怎么设置代理ip:简单步骤,实现高效网络请求
本文介绍了在Java中设置代理IP的方法,包括使用系统属性设置HTTP和HTTPS代理、在URL连接中设置代理、设置身份验证代理,以及使用第三方库如Apache HttpClient进行更复杂的代理配置。这些方法有助于提高网络请求的安全性和灵活性。
788 0