机器学习(五)使用Python和R语言从头开始理解和编写神经网络(一)

简介: 本篇文章是原文的翻译过来的,自己在学习和阅读之后觉得文章非常不错,文章结构清晰,由浅入深、从理论到代码实现,最终将神经网络的概念和工作流程呈现出来。自己将其翻译成中文,以便以后阅读和复习和网友参考。因时间(文字纯手打加配图)紧促和翻译水平有限,文章有不足之处请大家指正。

[博客文章地(https://yanqiangmiffy.github.io/2017/07/24/Python26-%E4%BD%BF%E7%94%A8Python%E5%92%8CR%E8%AF%AD%E8%A8%80%E4%BB%8E%E5%A4%B4%E5%BC%80%E5%A7%8B%E7%90%86%E8%A7%A3%E5%92%8C%E7%BC%96%E5%86%99%E7%A5%9E%E7%BB%8F%E7%BD%91%E7


本篇文章是原文的翻译过来的,自己在学习和阅读之后觉得文章非常不错,文章结构清晰,由浅入深、从理论到代码实现,最终将神经网络的概念和工作流程呈现出来。自己将其翻译成中文,以便以后阅读和复习和网友参考。因时间(文字纯手打加配图)紧促和翻译水平有限,文章有不足之处请大家指正。


介绍


你可以通过两种方式学习和实践一个概念:

  • 选项1:您可以了解一个特定主题的整个理论,然后寻找应用这些概念的方法。所以,你阅读整个算法的工作原理,背后的数学知识、假设理论、局限,然后去应用它。这样学习稳健但是需要花费大量的时间去准备。
  • 选项2:从简单的基础开始,并就此主题研究直觉上的知识。接下来,选择一个问题并开始解决它。在解决问题的同时了解这些概念,保持调整并改善您对此问题的理解。所以,你去了解如何应用一个算法——实践并应用它。一旦你知道如何应用它,请尝试使用不同的参数和测试值,极限值去测试算法和继续优化对算法的理解。


我更喜欢选项2,并采取这种方法来学习任何新的话题。我可能无法告诉你算法背后的整个数学,但我可以告诉你直觉上的知识以及基于实验和理解来应用算法的最佳场景。

在与其他人交流的过程中,我发现人们不用花时间来发展这种直觉,所以他们能够以正确的方式努力地去解决问题。


在本文中,我将从头开始讨论一个神经网络的构建,更多地关注研究这种直觉上的知识来实现神经网络。我们将在“Python”和“R”中编写代码。读完本篇文章后,您将了解神经网络如何工作,如何初始化权重,以及如何使用反向传播进行更新。

让我们开始吧


目录


  • 神经网络背后的简单直觉知识
  • 多层感知器及其基础知识
  • 涉及神经网络方法的步骤
  • 可视化神经网络工作方法的步骤
  • 使用Numpy(Python)实现NN
  • 使用R实现NN
  • [可选]反向传播算法的数学观点


神经网络背后的直观知识


如果您是开发人员或了解一种工作——知道如何在代码中调试错误。您可以通过改变输入或条件来触发各种测试用例,并查找输出,输出的变化提供了一个提示:在代码中,去哪里寻找bug? - 哪个模块要检查,哪些行要阅读。找到bug后,您进行更改并继续运行,直到您能够运行正确的代码或者实现应用程序。


神经网络的工作方式非常相似。它需要多个输入,通过来自多个隐藏层的多个神经元进行处理,并使用输出层返回结果。这个结果估计过程在技术上被称为“前向传播”。

接下来,我们将结果与实际输出进行比较。任务是使神经网络的输出接近实际(期望的)输出。在这些神经元中,每一个都会对最终输出产生一些误差,你如何减少这些误差呢?


我们尝试最小化那些对错误“贡献”更多的神经元的值和权重,并且在返回到神经网络的神经元并发现误差在哪里时发生。这个过程被称为“向后传播”。

为了减少迭代次数来实现最小化误差,神经网络通常使用称为“梯度下降”的算法,来快速有效地优化任务。


的确 ,这就是神经网络如何工作的!我知道这是一个非常简单的表示,但它可以帮助您以简单的方式理解事物。


多层感知器及其基础知识


就像原子是形成地球上任何物质的基础 - 神经网络的基本形成单位是感知器。 那么,什么是感知器呢?


感知器可以被理解为需要多个输入并产生一个输出的任何东西。 例如,看下面的图片


感知器


上述结构需要三个输入并产生一个输出,下一个逻辑问题是输入和输出之间的关系是什么?让我们从基本的方式着手,寻求更复杂的方法。


下面我讨论了三种创建输入输出关系的方法:

  1. 通过直接组合输入和计算基于阈值的输出。例如:取x1 = 0,x2 = 1,x3 = 1并设置阈值= 0。因此,如果x1 + x2 + x3> 0,则输出为1,否则为0.可以看出,在这种情况下,感知器会将输出计算为1。
  2. 接下来,让我们为输入添加权重。权重重视输入。例如,您分别为x1,x2和x3分配w1 = 2,w2 = 3和w3 = 4。为了计算输出,我们将输入与相应权重相乘,并将其与阈值进行比较,如w1 * x1 + w2 * x2 + w3 * x3>阈值。与x1和x2相比,这些权重对于x3显得更重要。
  3. 最后,让我们添加偏置量:每个感知器也有一个偏置量,可以被认为是感知器多么灵活。它与某种线性函数y = ax + b的常数b类似,它允许我们上下移动线以适应数据更好的预测。假设没有b,线将始终通过原点(0,0),并且可能会得到较差的拟合。例如,感知器可以具有两个输入,在这种情况下,它需要三个权重。每个输入一个,偏置一个。现在输入的线性表示将如下所示:w1 * x1 + w2 * x2 + w3 * x3 + 1 * b。


但是,上面所讲的感知器之间的关系都是线性的,并没有那么有趣。所以,人们认为将感知器演化成现在所谓的人造神经元,对于输入和偏差,神经元将使用非线性变换(激活函数)。


什么是激活函数?


激活函数将加权输入(w1 * x1 + w2 * x2 + w3 * x3 + 1 * b)的和作为参数,并返回神经元的输出。

激活函数


在上式中,我们用x0表示1,w0表示b。

激活函数主要用于进行非线性变换,使我们能够拟合非线性假设或估计复杂函数。 有多种激活功能,如:“Sigmoid”“Tanh”ReLu等等。


前向传播,反向传播和训练次数(epochs)


到目前为止,我们已经计算了输出,这个过程被称为“正向传播”。 但是如果估计的输出远离实际输出(非常大的误差)怎么办? 下面正是我们在神经网络中所做的:基于错误更新偏差和权重。 这种权重和偏差更新过程被称为“反向传播”。


反向传播(BP)算法通过确定输出处的损耗(或误差),然后将其传播回网络来工作, 更新权重以最小化每个神经元产生的错误。 最小化误差的第一步是确定每个节点w.r.t.的梯度(Derivatives),最终实现输出。 要获得反向传播的数学视角,请参阅下面的部分。


这一轮的前向和后向传播迭代被称为一个训练迭代也称为“Epoch”。ps:e(一)poch(波)的意思;一个epoch是指把所有训练数据完整的过一遍


多层感知器


现在,我们来看看多层感知器。 到目前为止,我们已经看到只有一个由3个输入节点组成的单层,即x1,x2和x3,以及由单个神经元组成的输出层。 但是,出于实际,单层网络只能做到这一点。 如下所示,MLP由层叠在输入层和输出层之间的许多隐层组成。


多层感知器


上面的图像只显示一个单一的隐藏层,但实际上可以包含多个隐藏层。 在MLP的情况下要记住的另一点是,所有层都完全连接,即层中的每个节点(输入和输出层除外)连接到上一层和下一层中的每个节点。让我们继续下一个主题,即神经网络的训练算法(最小化误差)。 在这里,我们将看到最常见的训练算法称为梯度下降。


全批量梯度下降和随机梯度下降


Gradient Descent的第二个变体通过使用相同的更新算法执行更新MLP的权重的相同工作,但差异在于用于更新权重和偏差的训练样本的数量。


全部批量梯度下降算法作为名称意味着使用所有的训练数据点来更新每个权重一次,而随机渐变使用1个或更多(样本),但从不使整个训练数据更新权重一次。


让我们用一个简单的例子来理解这个10个数据点的数据集,它们有两个权重w1和w2。

  • 全批:您可以使用10个数据点(整个训练数据),并计算w1(Δw1)的变化和w2(Δw2)的变化,并更新w1和w2。
  • SGD:使用第一个数据点并计算w1(Δw1)的变化,并改变w2(Δw2)并更新w1和w2。 接下来,当您使用第二个数据点时,您将处理更新的权重


神经网络方法的步骤


多层感知器


我们来看一步一步地构建神经网络的方法(MLP与一个隐藏层,类似于上图所示的架构)。 在输出层,我们只有一个神经元,因为我们正在解决二进制分类问题(预测0或1)。 我们也可以有两个神经元来预测两个类的每一个。


先看一下广泛的步骤:

  1. 我们输入和输出
  • X作为输入矩阵
  • y作为输出矩阵
  1. 我们用随机值初始化权重和偏差(这是一次启动,在下一次迭代中,我们将使用更新的权重和偏差)。 让我们定义:
  • wh作为权重矩阵隐藏层
  • bh作为隐藏层的偏置矩阵
  • wout作为输出层的权重矩阵
  • bout作为偏置矩阵作为输出层
  1. 我们将输入和权重的矩阵点积分配给输入和隐藏层之间的边,然后将隐层神经元的偏差添加到相应的输入,这被称为线性变换:
    hidden_layer_input= matrix_dot_product(X,wh) + bh
  2. 使用激活函数(Sigmoid)执行非线性变换。 Sigmoid将返回输出1/(1 + exp(-x)).
    hiddenlayer_activations = sigmoid(hidden_layer_input)
  3. 对隐藏层激活进行线性变换(取矩阵点积,并加上输出层神经元的偏差),然后应用激活函数(再次使用Sigmoid,但是根据您的任务可以使用任何其他激活函数 )来预测输出
    output_layer_input = matrix_dot_product (hiddenlayer_activations * wout ) + bout
    output = sigmoid(output_layer_input)

<strong>所有上述步骤被称为“前向传播”(Forward Propagation)</strong>

  1. 将预测与实际输出进行比较,并计算误差梯度(实际预测值)。 误差是均方损失= ((Y-t)^2)/2
    E = y – output
  2. 计算隐藏和输出层神经元的斜率/斜率(为了计算斜率,我们计算每个神经元的每层的非线性激活x的导数)。 S形梯度可以返回 x * (1 – x).
    slope_output_layer = derivatives_sigmoid(output)
    slope_hidden_layer = derivatives_sigmoid(hiddenlayer_activations)
  3. 计算输出层的变化因子(delta),取决于误差梯度乘以输出层激活的斜率
    d_output = E * slope_output_layer
  4. 在这一步,错误将传播回网络,这意味着隐藏层的错误。 为此,我们将采用输出层三角形的点积与隐藏层和输出层之间的边缘的重量参数(wout.T)。
    Error_at_hidden_layer = matrix_dot_product(d_output, wout.Transpose)
  5. 计算隐层的变化因子(delta),将隐层的误差乘以隐藏层激活的斜率
    d_hiddenlayer = Error_at_hidden_layer * slope_hidden_layer
  6. 在输出和隐藏层更新权重:网络中的权重可以从为训练示例计算的错误中更新。
    wout = wout + matrix_dot_product(hiddenlayer_activations.Transpose, d_output)*learning_rate
    wh = wh + matrix_dot_product(X.Transpose,d_hiddenlayer)*learning_rate
    learning_rate:权重更新的量由称为学习率的配置参数控制)
  7. 在输出和隐藏层更新偏差:网络中的偏差可以从该神经元的聚合错误中更新。
  • bias at output_layer =bias at output_layer + sum of delta of output_layer at row-wise * learning_rate
  • bias at hidden_layer =bias at hidden_layer + sum of delta of output_layer at row-wise * learning_rate
  1. bh = bh + sum(d_hiddenlayer, axis=0) * learning_rate
    bout = bout + sum(d_output, axis=0)*learning_rate

<strong>从6到12的步骤被称为“向后传播”(Backward Propagation)</strong>

一个正向和反向传播迭代被认为是一个训练周期。 如前所述,我们什么时候训练第二次,然后更新权重和偏差用于正向传播。


以上,我们更新了隐藏和输出层的权重和偏差,我们使用了全批量梯度下降算法。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
20 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
25天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
245 55
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
172 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
10天前
|
算法 网络协议 Python
探秘Win11共享文件夹之Python网络通信算法实现
本文探讨了Win11共享文件夹背后的网络通信算法,重点介绍基于TCP的文件传输机制,并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享,通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求,接收文件请求并分块发送文件内容;客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程,帮助读者理解并优化文件共享系统。
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
80 3
|
2月前
|
网络安全 Python
Python网络编程小示例:生成CIDR表示的IP地址范围
本文介绍了如何使用Python生成CIDR表示的IP地址范围,通过解析CIDR字符串,将其转换为二进制形式,应用子网掩码,最终生成该CIDR块内所有可用的IP地址列表。示例代码利用了Python的`ipaddress`模块,展示了从指定CIDR表达式中提取所有IP地址的过程。
60 6
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
83 8
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
97 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络