深度学习基础:为什么神经网络的感知机中的神经元需要偏置项?

简介: 深度学习基础:为什么神经网络的感知机中的神经元需要偏置项?

神经元中不添加偏置项可以吗?答案是,不可以

image.png

每个人都知道神经网络中的偏置(bias)是什么,而且从人类实现第一个感知器开始,每个人都知道神经元需要添加偏置项。但你是否考虑过我们为什么要使用偏置项呢?就我而言,直到不久前我才弄清楚这个问题。当时我和一个本科生讨论了一些神经网络模型,但不知何故她把“偏置输入”(bias input)和“统计基差”( statistical bias)搞混了。对我来说,向她解释这些概念当然很容易,但我却很难进一步地告诉她我们为什么要使用偏置项。过了一段时间,我决定尝试写代码来研究这一问题。

让我们先从一些简单的概念开始。

感知器是多层感知器(MLP)和人工神经网络的前身。众所周知,感知器是一种用于监督学习的仿生算法。它本质上是一个线性分类器,如图所示:

一个简单的感知器示意图

image.png

下面让我们考察一下这个模型的数学方程:

在这里,f(x)代表激活函数(通常是一个阶跃函数)。b是偏置项, p和w分别是输入和权重。

你可能会注意到它与线性函数的标准形式是相似的。如果我们不适用激活函数,或将激活函数替换为恒等映射,这些公式将是相同的(在这里为了方便描述,我们只考虑单一输入):

在这里偏置项的权重是1

image.png

比较这两个公式,很明显我们的偏置项就对应了线性函数中的b。现在的问题就转化为,线性函数中的b为什么那么重要?如果你过去几年没有上过任何线性代数课程(就像我一样),可能对一些概念不够了解。但是下面的内容是很容易理解的:

image.png

我们很容易就注意到,当b=0时,函数总是通过原点[0,0]。当我们保持a不变的情况下引入b时,新的函数总是相互平行的。那么,我们能从中得到什么信息呢?

我们可以说,系数a决定了函数的角度,而分量b决定了函数与x轴的交点。

此时我想你已经注意到了一些问题,对吧?如果没有b,函数将会失去很多灵活性。只不过对一些分布进行分类时偏置项可能有用,但不是对所有情况都有用。怎样测试它的实际效果呢?让我们使用一个简单的例子:OR函数。让我们先来看看它的分布:

绘制在笛卡尔坐标系中的OR函数:

image.png

我想你已经想明白了这个问题。图中两个点([0,0]和[1,0])是两个不同的类,但任何一条过[0,0]的直线都没有办法将这两个点分开。那么感知机如何对它分类呢?有偏置项和无偏置项的结果分别是怎样的呢?让我们通过编程,看看将会发生什么!下面是用Python实现的感知器神经元:

classPerceptron():def__init__(self, n_input, alpha=0.01, has_bias=True):
    self.has_bias = has_bias
    self.bias_weight = random.uniform(-1,1)
    self.alpha = alpha
    self.weights = []
    for i in range(n_input):
        self.weights.append(random.uniform(-1,1))defclassify(self, input):
    summation = 0if(self.has_bias):
        summation += self.bias_weight * 1for i in range(len(self.weights)):
        summation += self.weights[i] * input[i]
    return self.activation(summation)defactivation(self, value):if(value < 0):
        return0else:
        return1deftrain(self, input, target):
    guess = self.classify(input)
    error = target - guess
    if(self.has_bias):
        self.bias_weight += 1 * error * self.alpha
    for i in range(len(self.weights)):
        self.weights[i] += input[i] * error * self.alpha

没有偏置项的感知器

image.png

首先,让我们训练无偏置项的感知器。我们知道,分类器(在本例中是我们的函数)总是通过[0,0]的。正如我们之前所说的那样,分类器无法分开这两类。在这种情况下尽管一直在向分离平面逼近,但它还是不能将[0,0]和[1,0]分开,

有偏置项的感知器

image.png

现在我们来看一下有偏置项的感知器。首先,注意分类器的灵活性。如前所述,在这种情况下感知器具有更大的灵活性。此外我们可以注意到,它正在寻找与上一个示例相同的判别平面,但是现在它能够找到分离数据的最佳位置。

所以,偏置项的重要性现在已经很清楚了。我知道你现在可能在思考激活函数,我们在python例子中使用了一个阶跃函数作为激活函数,如果我们使用sigmoid作为激活函数,它的效果可能会更好?相信我:不会的。让我们看看当我们将sigmoid函数作为线性函数的激活函数(σ(f (x)))会发生什么:

image.png

你是否注意到这里的例子和线性函数的例子很相似?sigmoid函数虽然改变了输出的形状,但是我们仍然遇到同样的问题:如果没有偏置项,所有的函数都会经过原点。当我们试图用曲线分离OR函数中时,它仍然得不到满意的结果。如果您想尝试一下,看看它是如何工作的,您只需要对python代码做一些小小的修改。

我真诚地感谢你对这个主题感兴趣。如果你有任何建议、意见,或者只是想和我打个招呼,请给我留言!我将很乐意和你讨论这个问题。

目录
相关文章
|
2天前
|
机器学习/深度学习 算法 TensorFlow
【图像识别】谷物识别系统Python+人工智能深度学习+TensorFlow+卷积算法网络模型+图像识别
谷物识别系统,本系统使用Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经算法网络模型,通过对11种谷物图片数据集('大米', '小米', '燕麦', '玉米渣', '红豆', '绿豆', '花生仁', '荞麦', '黄豆', '黑米', '黑豆')进行训练,得到一个进度较高的H5格式的模型文件。然后使用Django框架搭建了一个Web网页端可视化操作界面。实现用户上传一张图片识别其名称。
17 0
【图像识别】谷物识别系统Python+人工智能深度学习+TensorFlow+卷积算法网络模型+图像识别
|
5天前
|
机器学习/深度学习 存储 算法
基于CNN+LSTM深度学习网络的时间序列预测matlab仿真,并对比CNN+GRU网络
该文介绍了使用MATLAB2022A进行时间序列预测的算法,结合CNN和RNN(LSTM或GRU)处理数据。CNN提取局部特征,RNN处理序列依赖。LSTM通过门控机制擅长长序列,GRU则更为简洁、高效。程序展示了训练损失、精度随epoch变化的曲线,并对训练及测试数据进行预测,评估预测误差。
|
5天前
|
机器学习/深度学习 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略深度学习在图像识别中的应用与挑战
【5月更文挑战第31天】 在数字化转型的浪潮中,云计算已成为企业及个人存储和处理数据的首选平台。然而,随着云服务的广泛采用,网络安全威胁也随之增加,使得信息安全成为亟待解决的挑战。本文聚焦于云计算环境特有的安全风险,探讨了多层次、多维度的防御策略,旨在为读者提供一套综合的云安全解决方案蓝图。通过分析当前云服务中的安全缺陷,并提出相应的防护措施,文章不仅强调了技术层面的对策,还涉及了管理与合规性方面的重要性。
|
5天前
|
机器学习/深度学习 网络安全 决策智能
利用深度学习优化图像识别准确性的探索云计算与网络安全的融合:保护云服务的关键策略
【5月更文挑战第30天】 在计算机视觉领域,图像识别的准确性对于后续处理和分析至关重要。本文旨在探讨一种基于深度学习的方法来优化图像识别过程,通过构建一个更加精细和强大的卷积神经网络(CNN)模型,实现对图像特征的深层次挖掘和精确分类。文章首先回顾了当前图像识别中存在的挑战,接着提出一种新型的CNN架构,并通过实验验证了其在多个标准数据集上的性能表现。研究结果表明,该模型在提高识别精度的同时,还能有效降低误识率,为图像识别技术的进步提供了新的视角和解决方案。
|
6天前
|
机器学习/深度学习 人工智能 算法
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
40 0
|
8天前
|
机器学习/深度学习 安全 算法
网络安全与信息安全:保护您的数据和隐私探索深度学习在图像识别中的边界
【5月更文挑战第28天】随着互联网的普及和技术的快速发展,网络安全和信息安全已成为我们日常生活中不可或缺的一部分。本文将探讨网络安全漏洞、加密技术和安全意识等方面,以帮助您更好地了解如何保护自己的数据和隐私。 【5月更文挑战第28天】本文深入探讨了深度学习技术在图像识别领域的最新进展,重点分析了当前算法面临的挑战和局限性。通过对比实验和案例分析,揭示了数据质量、模型泛化能力和计算资源等因素对图像识别性能的影响。此外,提出了几点针对现有问题的改进方向和未来的研究趋势,旨在推动深度学习技术在图像识别领域的进一步发展。
|
8天前
|
机器学习/深度学习 PyTorch 人机交互
探索深度学习在语音识别中的实践:基于循环神经网络的模型构建
探索深度学习在语音识别中的实践:基于循环神经网络的模型构建
22 0
|
8天前
|
机器学习/深度学习 自然语言处理 算法
深入解析深度学习中的卷积神经网络:从理论到实践
深入解析深度学习中的卷积神经网络:从理论到实践
28 0
|
8天前
|
机器学习/深度学习 自然语言处理 数据可视化
揭秘深度学习模型中的“黑箱”:理解与优化网络决策过程
【5月更文挑战第28天】 在深度学习领域,神经网络因其卓越的性能被广泛应用于图像识别、自然语言处理等任务。然而,这些复杂的模型往往被视作“黑箱”,其内部决策过程难以解释。本文将深入探讨深度学习模型的可解释性问题,并提出几种方法来揭示和优化网络的决策机制。我们将从模型可视化、敏感性分析到高级解释框架,一步步剖析模型行为,旨在为研究者提供更透明、可靠的深度学习解决方案。
|
8天前
|
机器学习/深度学习 人工智能 算法
利用深度学习技术优化图像识别准确性网络堡垒的构建者:深入网络安全与信息保护策略
【5月更文挑战第28天】 随着人工智能的不断发展,图像识别作为其重要分支之一,在多个领域内得到了广泛应用。然而,识别准确性的提升一直是该领域的研究重点。本文通过引入深度学习技术,构建了一个多层次的卷积神经网络模型,用于提升图像识别的准确性。文中详细阐述了模型的结构设计、训练过程以及参数调优策略,并通过实验验证了所提出方法的有效性。结果表明,与传统图像识别方法相比,深度学习技术能显著提高识别精度,并具有较强的泛化能力。