深度学习基础:为什么神经网络的感知机中的神经元需要偏置项?

简介: 深度学习基础:为什么神经网络的感知机中的神经元需要偏置项?

神经元中不添加偏置项可以吗?答案是,不可以

image.png

每个人都知道神经网络中的偏置(bias)是什么,而且从人类实现第一个感知器开始,每个人都知道神经元需要添加偏置项。但你是否考虑过我们为什么要使用偏置项呢?就我而言,直到不久前我才弄清楚这个问题。当时我和一个本科生讨论了一些神经网络模型,但不知何故她把“偏置输入”(bias input)和“统计基差”( statistical bias)搞混了。对我来说,向她解释这些概念当然很容易,但我却很难进一步地告诉她我们为什么要使用偏置项。过了一段时间,我决定尝试写代码来研究这一问题。

让我们先从一些简单的概念开始。

感知器是多层感知器(MLP)和人工神经网络的前身。众所周知,感知器是一种用于监督学习的仿生算法。它本质上是一个线性分类器,如图所示:

一个简单的感知器示意图

image.png

下面让我们考察一下这个模型的数学方程:

在这里,f(x)代表激活函数(通常是一个阶跃函数)。b是偏置项, p和w分别是输入和权重。

你可能会注意到它与线性函数的标准形式是相似的。如果我们不适用激活函数,或将激活函数替换为恒等映射,这些公式将是相同的(在这里为了方便描述,我们只考虑单一输入):

在这里偏置项的权重是1

image.png

比较这两个公式,很明显我们的偏置项就对应了线性函数中的b。现在的问题就转化为,线性函数中的b为什么那么重要?如果你过去几年没有上过任何线性代数课程(就像我一样),可能对一些概念不够了解。但是下面的内容是很容易理解的:

image.png

我们很容易就注意到,当b=0时,函数总是通过原点[0,0]。当我们保持a不变的情况下引入b时,新的函数总是相互平行的。那么,我们能从中得到什么信息呢?

我们可以说,系数a决定了函数的角度,而分量b决定了函数与x轴的交点。

此时我想你已经注意到了一些问题,对吧?如果没有b,函数将会失去很多灵活性。只不过对一些分布进行分类时偏置项可能有用,但不是对所有情况都有用。怎样测试它的实际效果呢?让我们使用一个简单的例子:OR函数。让我们先来看看它的分布:

绘制在笛卡尔坐标系中的OR函数:

image.png

我想你已经想明白了这个问题。图中两个点([0,0]和[1,0])是两个不同的类,但任何一条过[0,0]的直线都没有办法将这两个点分开。那么感知机如何对它分类呢?有偏置项和无偏置项的结果分别是怎样的呢?让我们通过编程,看看将会发生什么!下面是用Python实现的感知器神经元:

classPerceptron():def__init__(self, n_input, alpha=0.01, has_bias=True):
    self.has_bias = has_bias
    self.bias_weight = random.uniform(-1,1)
    self.alpha = alpha
    self.weights = []
    for i in range(n_input):
        self.weights.append(random.uniform(-1,1))defclassify(self, input):
    summation = 0if(self.has_bias):
        summation += self.bias_weight * 1for i in range(len(self.weights)):
        summation += self.weights[i] * input[i]
    return self.activation(summation)defactivation(self, value):if(value < 0):
        return0else:
        return1deftrain(self, input, target):
    guess = self.classify(input)
    error = target - guess
    if(self.has_bias):
        self.bias_weight += 1 * error * self.alpha
    for i in range(len(self.weights)):
        self.weights[i] += input[i] * error * self.alpha

没有偏置项的感知器

image.png

首先,让我们训练无偏置项的感知器。我们知道,分类器(在本例中是我们的函数)总是通过[0,0]的。正如我们之前所说的那样,分类器无法分开这两类。在这种情况下尽管一直在向分离平面逼近,但它还是不能将[0,0]和[1,0]分开,

有偏置项的感知器

image.png

现在我们来看一下有偏置项的感知器。首先,注意分类器的灵活性。如前所述,在这种情况下感知器具有更大的灵活性。此外我们可以注意到,它正在寻找与上一个示例相同的判别平面,但是现在它能够找到分离数据的最佳位置。

所以,偏置项的重要性现在已经很清楚了。我知道你现在可能在思考激活函数,我们在python例子中使用了一个阶跃函数作为激活函数,如果我们使用sigmoid作为激活函数,它的效果可能会更好?相信我:不会的。让我们看看当我们将sigmoid函数作为线性函数的激活函数(σ(f (x)))会发生什么:

image.png

你是否注意到这里的例子和线性函数的例子很相似?sigmoid函数虽然改变了输出的形状,但是我们仍然遇到同样的问题:如果没有偏置项,所有的函数都会经过原点。当我们试图用曲线分离OR函数中时,它仍然得不到满意的结果。如果您想尝试一下,看看它是如何工作的,您只需要对python代码做一些小小的修改。

我真诚地感谢你对这个主题感兴趣。如果你有任何建议、意见,或者只是想和我打个招呼,请给我留言!我将很乐意和你讨论这个问题。

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
41 0
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能与图像识别:基于深度学习的卷积神经网络
人工智能与图像识别:基于深度学习的卷积神经网络
35 0
|
14天前
|
机器学习/深度学习 算法 PyTorch
【动手学深度学习】深入浅出深度学习之线性神经网络
【动手学深度学习】深入浅出深度学习之线性神经网络
57 9
|
1月前
|
机器学习/深度学习 并行计算 算法
m基于深度学习网络的瓜果种类识别系统matlab仿真,带GUI界面
m基于深度学习网络的瓜果种类识别系统matlab仿真,带GUI界面
32 0
|
22小时前
|
机器学习/深度学习 算法 计算机视觉
m基于Yolov2深度学习网络的人体喝水行为视频检测系统matlab仿真,带GUI界面
MATLAB 2022a中使用YOLOv2算法对avi视频进行人体喝水行为检测,结果显示成功检测到目标。该算法基于全卷积网络,通过特征提取、锚框和损失函数优化实现。程序首先打乱并分割数据集,利用预训练的ResNet-50和YOLOv2网络结构进行训练,最后保存模型。
10 5
|
3天前
|
机器学习/深度学习 传感器 数据可视化
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
19 1
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
|
8天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
21 0
|
9天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
17 0
|
9天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
29 0