机器学习之神经网络-阿里云开发者社区

机器学习之神经网络

2017-05-18 1269

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多层神经网络前面说到的感知器是一种最基础的神经网络，他只有输入层和输出层，感知器只能处理线性可分问题，而对于非线性问题就需要多层神经网络。

多层神经网络

前面说到的感知器是一种最基础的神经网络，他只有输入层和输出层，感知器只能处理线性可分问题，而对于非线性问题就需要多层神经网络。一般如下图所示，有多个层，比如左边的包含输入层、隐层和输出层，而右边的则包含了两个隐层。每层的神经元与下一神经元全互连，同层之间的神经元不会相连，输入层用于接收输入，经过隐层加工后再到输出层加工并输出。

这里写图片描述

如何训练多层网络

对于多层网络我们常用误差逆传播算法来训练，而我们最常见的BP神经网络指的是使用误差逆传播来训练的多层前馈神经网络。除此之外其他类型的神经网络也可能会用误差逆传播算法来训练。

总的来说，误差逆传播是使用梯度下降法，通过反向传播不断调整神经网络中各个权重从而使输出层的误差平方和最小。

BP神经网络

BP神经网络好的地方就是我们完全不必事先考虑怎么用数学方程来描述输入和输出之间的关系，转而考虑的是设计一个N层神经网络，而要多少层、每层要多少个节点就可以我们根据经验来设计，可通过不同的网络模型来看哪个模型能更好地拟合。

BP神经网络其实很直观很好理解，整个过程如下。

下面是一个三层（不算输入层）神经网络，两个输入经过几层网络后得到一个输出。

这里写图片描述

在训练该网络的过程中，输入x1、x2，f1(e)节点对应的权重为w(x1)1、w(x2)1，则有y1=f1(w(x1)1+w(x2)1)。

这里写图片描述

f2(e)节点对应的权重为w(x1)2、w(x2)2，则有y2=f2(w(x1)2+w(x2)2)。
这里写图片描述

f3(e)节点对应的权重为w(x1)3、w(x2)3，则有y3=f3(w(x1)3+w(x2)3)。
这里写图片描述

这么一来就得到第一层隐层的所有信号输出，接下去往下一层传播，这时对于第二层隐层来说，第一层隐层的所有节点的输出就是它的输入，这时输入节点变为3个，分别为y1、y2、y3，对应权重为w14w24w34，则y4=f4(w14y1+w24y2+w34y3)。

这里写图片描述

而f5(e)对应的权重为w15w25w35，则y5=f5(w15y1+w25y2+w35y3)。
这里写图片描述

于是又得到第二层隐层的两个输出，继续往下一层（输出层）传播，对于输出层，第二层隐层的两个节点的输出即为它的输入，此时输入节点为2个，分别为y4和 y5，假设权重分别为w46w56，则y6=f6(w46y4+w56y5)。

这里写图片描述

误差逆传播

往下看看误差逆传播是怎么一回事。通过上面的过程我们获取到了一个最终的输出，而这个输出与目标值可能存在误差，表示为δ=z−y。则对于样本的目标函数为Ed=12∑i(zi−yi)2。
这里写图片描述

使用梯度下降法更新每一个权重，即wji←wji−η∂Ed∂wji。解决了上面的式子就可以完成迭代优化了。
如下图，对于每个节点输入nodej有，

n o d e j = \sum i w j i x j i

根据链式求导法则有，

\partial E d \partial w j i = \partial E d \partial n o d e j \partial n o d e j \partial w j i = \partial E d \partial n o d e j \partial \sum i w j i x j i \partial w j i = \partial E d \partial n o d e j x j i

于是只要求得∂Ed∂nodej即知道梯度权重更新。

对于输出层，其中∂yj∂nodej=∂sigmoid(nodej)∂nodej=yj(1−yj),则有

\partial E d \partial w j i = \partial E d \partial y j \partial y j \partial n o d e j x j i = - (t j - y j) y j (1 - y j) x j i

则按照下面进行权重更新，

w j i \leftarrow w j i - η \partial E d \partial w j i = w j i + η (t j - y j) y j (1 - y j) x j i

为方便表示，也可以令误差项

δj=−∂Ed∂nodej，则

δj=(tj−yj)yj(1−yj)，

w j i \leftarrow w j i + η δ j x j i

有了上面的更新公式后就可以对输出层进行迭代更新了。

对于隐层，设节点j的所有输出为A，则下一层网络有多少个节点，则它的集合大小为多少，比如上图中，对于节点1，它的输出集合A大小为2，分别输出到节点4和节点5。隐层节点的输入nodej通过影响所有输出A再往下影响Ed，再设nodek为下一层的输入，则Ed是nodek的函数，且nodek是nodej的函数。对于节点输入nodej，由于其输出A包含多个元素，有多个影响分量，所以，

\partial E d \partial n o d e j = \sum k \in A \partial E d \partial n o d e k \partial n o d e k \partial n o d e j = \sum k \in A \partial E d \partial n o d e k \partial n o d e k \partial f ( n o d e j ) \partial f ( n o d e j ) \partial n o d e j = \sum k \in A - δ k w k j \partial f ( n o d e j ) \partial n o d e j = \sum k \in A - δ k w k j f (n o d e j) (1 - f (n o d e j)) = - f (n o d e j) (1 - f (n o d e j)) \sum k \in A δ k w k j

正则化

为了抑制过拟合，对于整个训练样本集目标函数进行正则化。

E = λ 1 m \sum 1 m E d + (1 - λ) \sum w 2

全局最小

神经网络的训练可能陷入局部最小中，有时需要一些策略跳出局部最小，以便有一定几率得到全局最小。
1. 模拟退火
2. 随机梯度下降
3. 多个不同的初始点

实现3-5-1网络

import numpy as np
def nonlin(x,deriv=False):
    if(deriv==True):
        return x*(1-x)
    return 1/(1+np.exp(-x))
X = np.array([[0,0,1],
            [0,1,1],
            [1,0,1],
            [1,1,1]])
y = np.array([[0],
            [1],
            [1],
            [0]])
np.random.seed(1)
syn0 = 2*np.random.random((3,5)) - 1
syn1 = 2*np.random.random((5,1)) - 1
for j in range(60000):
    l0 = X
    l1 = nonlin(np.dot(l0,syn0))
    l2 = nonlin(np.dot(l1,syn1))
    l2_error = y - l2
    if (j% 10000) == 0:
        print("Error:" + str(np.mean(np.abs(l2_error))))
    l2_delta = l2_error*nonlin(l2,deriv=True)
    l1_error = l2_delta.dot(syn1.T)
    l1_delta = l1_error * nonlin(l1,deriv=True)
    g = 0.01
    syn1 += g * l1.T.dot(l2_delta)
    syn0 += g * l0.T.dot(l1_delta)
print(l2)

====广告时间，可直接跳过====

鄙人的新书《Tomcat内核设计剖析》已经在京东预售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

=========================

欢迎关注：

这里写图片描述

机器学习之神经网络

多层神经网络

如何训练多层网络

BP神经网络

误差逆传播

正则化

全局最小

实现3-5-1网络

热门文章

最新文章

相关课程

相关电子书

相关实验场景