AI【基础 01】神经网络基础知识(不断进行补充整理)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
视觉智能开放平台,视频资源包5000点
NLP自然语言处理_基础版,每接口每天50万次
简介: 神经网络基础知识(不断进行补充整理)

本人是AI小白,以下内容来自Jay Alammar的A Visual and Interactive Guide to the Basics of Neural Networks 仅对文章内的名词进行了解释补充。

1.基础知识

1.1 回归模型

回归模型是一种用于预测数值输出的统计模型。它主要用于建立输入特征与连续目标变量之间的关系。与分类模型不同,回归模型的输出是连续的数值,而不是离散的类别。
简而言之,回归模型旨在找到输入特征与输出之间的关联,并使用这种关联来进行预测。这些模型可以采用不同的算法和方法,其中线性回归是最简单和常见的一种形式。线性回归假设输入特征与输出之间存在线性关系,然后通过拟合一条直线来进行预测。
除了线性回归,还有许多其他类型的回归模型,如多项式回归、岭回归、LASSO 回归等,它们适用于不同类型的数据和问题。这些模型在数据分析、机器学习和统计建模等领域都得到广泛应用。

1.2 损失函数

损失函数(Loss Function)是用于衡量模型预测值与实际值之间差异的函数。在机器学习和深度学习中,损失函数是训练模型时的关键组成部分。其目标是定义一个衡量模型性能的指标,使得在训练过程中最小化这个指标,从而使模型能够更好地进行预测。
损失函数的选择取决于所面对的问题类型。以下是一些常见的损失函数:

  1. 均方误差(Mean Squared Error,MSE): 适用于回归问题,衡量预测值与实际值之间的平方差的平均值。
  2. 交叉熵损失(Cross-Entropy Loss): 适用于分类问题,特别是在神经网络中。包括二元交叉熵(Binary Cross-Entropy)和多类别交叉熵(Categorical Cross-Entropy)。
  3. Huber Loss: 类似于均方误差,但对异常值更具鲁棒性。
  4. Hinge Loss: 通常用于支持向量机(SVM)等分类算法,适用于二分类问题。
  5. 绝对损失(L1 Loss): 衡量预测值与实际值之间的绝对差异的平均值,对离群值更具鲁棒性。

选择合适的损失函数取决于问题的性质和所使用的模型。在训练过程中,优化算法会尝试最小化损失函数,使得模型能够更好地拟合训练数据。

1.2.1 均方误差

均方误差(Mean Squared Error,简称 MSE)是用于衡量预测值与实际值之间差异的一种常见的性能度量指标。它在回归问题中特别常用。
MSE 的计算方法是对预测值与实际值的差异进行平方,然后取这些平方差的平均值。公式如下:
$MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2$
其中:

  • ( n ) 是样本数量。
  • ( $Y_i$ ) 是实际观测值。
  • ( $\hat{Y}_i$ ) 是相应的预测值。

MSE 的值越小,表示模型的预测效果越好,因为它衡量了模型预测值与真实值之间的平均平方误差。然而,MSE 的值受到量纲影响,通常需要与实际问题的背景一起考虑。
在机器学习中,优化算法通常会试图最小化 MSE,以改进模型的性能。

1.3 权重和偏置

在机器学习和神经网络中,权重(Weights)和偏置(Bias)是模型中的两个关键参数,它们对于模型的学习和预测起着重要的作用。

  1. 权重(Weights): 权重是连接两个神经元之间的参数,用于调整输入特征的影响力。在神经网络中,每个连接都有一个权重,它表示两个神经元之间连接的强度。训练模型的目标是调整这些权重,使得模型能够更好地拟合训练数据,从而提高对新数据的泛化能力。
  2. 偏置(Bias): 偏置是神经网络中每个神经元的一个附加参数,它独立于输入特征。偏置的作用是在没有输入时引入一个固定的偏移,从而使网络更灵活地适应不同的模式。偏置的调整可以帮助模型更好地拟合数据。

在神经网络的一层中,每个神经元都有自己的权重和一个共享的偏置。模型通过训练数据来学习调整这些权重和偏置,以最小化损失函数,从而提高模型的性能。
数学上,对于一个简单的神经网络的线性变换,可以表示为:
$\text{输出} = \text{权重} \times \text{输入} + \text{偏置}$
这一变换后通常还会通过一个激活函数,如ReLU(Rectified Linear Unit)来引入非线性。整个过程使得神经网络能够学习更复杂的模式和特征。

1.4 梯度下降

梯度下降是一种用于最小化损失函数的优化算法,特别是在机器学习和深度学习中广泛应用。其核心思想是通过迭代调整模型参数,使得损失函数的值逐渐减小,达到找到最优参数的目的。
以下是梯度下降的基本步骤:

  1. 初始化参数: 随机或使用一些启发式方法初始化模型的参数,如权重和偏置。
  2. 计算梯度: 计算损失函数关于模型参数的梯度(导数)。梯度表示了损失函数在参数空间中的变化方向,指向最快的增长方向。
  3. 更新参数: 沿着梯度的反方向调整模型参数,从而减小损失函数的值。这一步通过学习率(learning rate)来控制每次参数更新的步长。
  4. 重复迭代: 重复步骤2和步骤3,直到满足停止条件,如达到预定的迭代次数或损失函数变化不大。

梯度下降有不同的变种,其中包括批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)和小批量梯度下降(Mini-batch Gradient Descent)。这些变种主要区别在于每次迭代更新时使用的样本数量。
梯度下降的成功依赖于选择合适的学习率和适当的停止条件,以及对损失函数的充分理解。这一优化算法在训练神经网络等复杂模型时被广泛使用。

1.5 激活函数

激活函数是神经网络中的一种非线性映射,它将输入信号转换为输出信号。激活函数的引入使得神经网络能够学习和表示更为复杂的模式和特征,从而提高网络的表达能力。以下是一些常见的激活函数:

  1. Sigmoid 函数: $\sigma(x) = \frac{1}{1 + e^{-x}}$,将输入映射到0到1之间,常用于二分类问题。但在深度神经网络中,它可能导致梯度消失问题,因此在隐藏层中使用较少。
  2. Hyperbolic Tangent 函数(tanh): $\tanh(x) = \frac{e^{2x} - 1}{e^{2x} + 1}$,类似于 Sigmoid 函数,将输入映射到-1到1之间。它在一些情况下相对于 Sigmoid 函数更有优势,但同样存在梯度消失问题。
  3. Rectified Linear Unit 函数(ReLU): $ReLU(x) = \max(0, x)$,在输入大于零时输出输入值,否则输出零。ReLU 是目前最常用的激活函数之一,因为它简单、计算效率高,且在许多情况下表现良好。
  4. Leaky ReLU 函数: $LeakyReLU(x) = \max(\alpha x, x)$,其中 ($\alpha$) 是小于1的小常数,解决了 ReLU 函数中负数部分导致的神经元死亡问题。
  5. Softmax 函数: 用于多类别分类问题,将一组数值转换为表示概率分布的形式。
  6. Swish 函数: $Swish(x) = x \cdot \sigma(x)$,其中 ($\sigma(x)$) 是 Sigmoid 函数。Swish 是一种类似于 ReLU 的激活函数,具有更平滑的曲线,有时在某些情况下表现较好。

选择适当的激活函数取决于问题的性质和神经网络的结构。ReLU 及其变种是目前常用的选择,但在某些场景下其他激活函数也可能更合适。

1.5.1 Softmax函数

Softmax 函数是一种常用的激活函数,特别适用于多类别分类问题。它将一组数值转换为表示概率分布的形式,使得每个类别的概率都在0到1之间,并且所有类别的概率之和为1。
Softmax 函数的定义如下,对于给定的输入向量 ( z ),Softmax 函数的输出 ( $\sigma(z)$ ) 的每个元素 ( $\sigma(z)_i$) 计算如下:
$\sigma(z)_i = \frac{e{zi}}{\sum{j=1}{K} e^{z_j}}$
其中:

  • ($z_i$ ) 是输入向量的第 ( i ) 个元素。
  • ( K ) 是类别的总数。

Softmax 函数的核心是将输入进行指数化(exponentiation),然后进行归一化,确保输出的每个元素都在0到1之间,并且它们的和为1。这使得输出可以被解释为类别的概率分布。
Softmax 函数在神经网络中通常用于输出层,特别是多类别分类问题。在训练过程中,它帮助模型产生对每个类别的相对置信度,便于计算损失并进行梯度下降优化。在预测时,Softmax 函数的输出中概率最高的类别被视为模型的最终预测。

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
1月前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
24天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
38 10
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
25天前
|
机器学习/深度学习 人工智能 TensorFlow
深入骨髓的解析:Python中神经网络如何学会‘思考’,解锁AI新纪元
【9月更文挑战第11天】随着科技的发展,人工智能(AI)成为推动社会进步的关键力量,而神经网络作为AI的核心,正以其强大的学习和模式识别能力开启AI新纪元。本文将探讨Python中神经网络的工作原理,并通过示例代码展示其“思考”过程。神经网络模仿生物神经系统,通过加权连接传递信息并优化输出。Python凭借其丰富的科学计算库如TensorFlow和PyTorch,成为神经网络研究的首选语言。
29 1
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Python爬虫入门指南探索AI的无限可能:深度学习与神经网络的魅力
【8月更文挑战第27天】本文将带你走进Python爬虫的世界,从基础的爬虫概念到实战操作,你将学会如何利用Python进行网页数据的抓取。我们将一起探索requests库和BeautifulSoup库的使用,以及反爬策略的应对方法。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据抓取世界的大门。
|
2月前
|
存储 机器学习/深度学习 人工智能
迎接AI挑战:构建新一代AI网络基础设施
随着人工智能(AI)技术的飞速发展,AI模型的复杂度和数据规模急剧增加,对基础设施的需求提出了前所未有的挑战。传统的互联网基础设施已难以满足AI技术对高性能计算、大规模数据处理和低延迟网络的需求,从而催生了新一代AI基础设施的诞生。本文旨在深入探讨新一代AI基础设施的特点、优势,并介绍其在混合云环境下的应用方案。
|
26天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络入门到精通:Python带你搭建AI思维,解锁机器学习的无限可能
【9月更文挑战第10天】神经网络是开启人工智能大门的钥匙,不仅是一种技术,更是模仿人脑思考的奇迹。本文从基础概念入手,通过Python和TensorFlow搭建手写数字识别的神经网络,逐步解析数据加载、模型定义、训练及评估的全过程。随着学习深入,我们将探索深度神经网络、卷积神经网络等高级话题,并掌握优化模型性能的方法。通过不断实践,你将能构建自己的AI系统,解锁机器学习的无限潜能。
21 0
|
2月前
|
人工智能 安全 网络安全
白宫关于AI的行政命令对网络安全领导人意味着什么
白宫关于AI的行政命令对网络安全领导人意味着什么
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
62 1
|
2月前
|
机器学习/深度学习 人工智能 安全
AI技术在医疗领域的应用及未来展望网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【8月更文挑战第29天】本文主要介绍了AI技术在医疗领域的应用以及未来的发展趋势。文章首先介绍了AI技术的基本概念和发展历程,然后详细介绍了AI技术在医疗领域的具体应用,包括疾病诊断、治疗建议、药物研发等方面。最后,文章对未来AI技术在医疗领域的发展趋势进行了预测和展望。
下一篇
无影云桌面