(Python)零起步数学+神经网络入门

简介: 手把手教你用(Python)零起步数学+神经网络入门!

在这篇文章中,我们将在Python中从头开始了解用于构建具有各种层神经网络(完全连接,卷积等)的小型库中的机器学习和代码。最终,我们将能够写出如下内容:

c61aa747573dab2d6f4e4b1d7e6df09483759f6e

假设你对神经网络已经有一定的了解,这篇文章的目的不是解释为什么构建这些模型,而是要说明如何正确实现

逐层

我们这里需要牢记整个框架:

1.     将数据输入神经网络

2.     在得出输出之前,数据从一层流向下一层

3.     一旦得到输出,就可以计算出一个标量误差

4.     最后,可以通过相对于参数本身减去误差的导数来调整给定参数(权重或偏差)。

5.     遍历整个过程。

最重要的一步是第四步 我们希望能够拥有任意数量的层,以及任何类型的层。 但是如果修改/添加/删除网络中的一个层,网络的输出将会改变,误差也将改变,误差相对于参数的导数也将改变。无论网络架构如何、激活函数如何、损失如何,都必须要能够计算导数。

为了实现这一点,我们必须分别实现每一层

每个层应该实现什么

我们可能构建的每一层(完全连接,卷积,最大化,丢失等)至少有两个共同点:输入输出数据。

cba578973bda205791e97224dd711839e7f88e53

现在重要的一部分

假设给出一个层相对于其输出(E/Y)误差的导数,那么它必须能够提供相对于其输入(E/X)误差的导数

3751869b1ed0fba74b9c2adb7251d3e7265e9274

记住,E是标量(一个数字),X和Y是矩阵。   

5372481acd69cc1a528f309f310a6cf296c36d90  

我们可以使用链规则轻松计算E/X的元素:

5b449a07def866c1a2996742b831ad42bb2fecc0

为什么是E/X

对于每一层,我们需要相对于其输入的误差导数,因为它将是相对于前一层输出的误差导数。这非常重要,这是理解反向传播的关键!在这之后,我们将能够立即从头开始编写深度卷积神经网络!

花样图解

基本上,对于前向传播,我们将输入数据提供给第一层,然后每层的输出成为下一层的输入,直到到达网络的末端。

9939a0972455bb2555cea1dad48fb39fe4957c86

对于反向传播,我们只是简单使用链规则来获得需要的导数。这就是为什么每一层必须提供其输出相对于其输入的导数。

effab56f76f88b8be9ff802b7c374e05ab1025da

这可能看起来很抽象,但是当我们将其应用于特定类型的层时,它将变得非常清楚。现在是编写第一个python类的好时机。

抽象基类:Layer

所有其它层将继承的抽象类Layer会处理简单属性,这些属性是输入输出以及前向反向方法。

from abc import abstractmethod
# Base class
class Layer:
    def __init__(self):
        self.input = None;
        self.output = None;
        self.input_shape = None;
        self.output_shape = None;
    # computes the output Y of a layer for a given input X
    @abstractmethod
    def forward_propagation(self, input):
        raise NotImplementedError

    # computes dE/dX for a given dE/dY (and update parameters if any)
    @abstractmethod
    def backward_propagation(self, output_error, learning_rate):
        raise NotImplementedError

正如你所看到的,在back_propagation函数中,有一个我没有提到的参数,它是learning_rate 此参数应该类似于更新策略或者在Keras中调用它的优化器,为了简单起见,我们只是通过学习率并使用梯度下降更新我们的参数。

全连接层

现在先定义并实现第一种类型的网络层:全连接层或FC层。FC层是最基本的网络层,因为每个输入神经元都连接到每个输出神经元。

40c2ea9ff86e81cca010778315b13c44505fd1ff

前向传播

每个输出神经元的值由下式计算:

823edb1625295422fb17640fc0b43c7e80ec840b

使用矩阵,可以使用点积来计算每一个输出神经元的值:

63ace93cb780ec7c650071b2fad76211908a8446

当完成前向传播之后,现在开始做反向传播。

反向传播

正如我们所说,假设我们有一个矩阵,其中包含与该层输出相关的误差导数(E/Y)。 我们需要

1.关于参数的误差导数(E/WE/B

2.关于输入的误差导数(E/X

首先计算E/W,该矩阵应与W本身的大小相同:对于ixj,其中i是输入神经元的数量,j是输出神经元的数量。每个权重都需要一个梯度

a91f15a43dafb36677e54fdb9ce9af8124d6a732

使用前面提到的链规则,可以写出:

d8185314215c5a681892fdecd424a7d698f721d2

那么:

abeeb84ca3ce2d7a00ed38b6fe90d053c458e6c1

这就是更新权重的第一个公式!现在开始计算E/B:

6d9ab2b3fbfa2e226917bd48d5e831e7b8d44b99

同样,E/B需要与B本身具有相同的大小,每个偏差一个梯度。 我们可以再次使用链规则:

2a7915404ee98857e259d31ff3844f5c14dbaa7e

得出结论:

83d182cca960ff4b0fddf638469a9d2e443c8b11

现在已经得到E/WE/B,我们留下E/X这是非常重要的,因为它将作用为之前层的E/Y

3a059e1acdc1bdee0c479fc52dbd3e67abfebdea

再次使用链规则:

94661e94fee4624b804d1f5d1dada223562b1f5a

最后,我们可以写出整个矩阵:

0327d93efccef821636258f06c21a7b9bb9bc450

我们已经得到FC层所需的三个公式!  

d14629cab0eb6af02acd854215de2bbfd23ee64c   

编码全连接层

现在我们可以用Python编写实现:

from layer import Layer
import numpy as np

# inherit from base class Layer
class FCLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    # output_shape = (1,j)  j the number of output neurons
    def __init__(self, input_shape, output_shape):
        self.input_shape = input_shape;
        self.output_shape = output_shape;
        self.weights = np.random.rand(input_shape[1], output_shape[1]) - 0.5;
        self.bias = np.random.rand(1, output_shape[1]) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.dot(self.input, self.weights) + self.bias;
        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        input_error = np.dot(output_error, self.weights.T);
        dWeights = np.dot(self.input.T, output_error);
        # dBias = output_error
        
        # update parameters
        self.weights -= learning_rate * dWeights;
        self.bias -= learning_rate * output_error;
        return input_error;

     激活层

到目前为止所做的计算都完全是线性的。用这种模型学习是没有希望的,需要通过将非线性函数应用于某些层的输出来为模型添加非线性。

现在我们需要为这种新类型的层(激活层)重做整个过程!

不用担心,因为此时没有可学习的参数,过程会快点,只需要计算E/X

我们将ff'分别称为激活函数及其导数。

0d9d76261014593aec61d93405a165501803776d

前向传播

正如将看到的,它非常简单。对于给定的输入X,输出是关于每个X元素的激活函数,这意味着输入输出具有相同的大小

ed7ac5cc3d3eed488654336f7476a39b477a4573

反向传播

给出E/Y,需要计算E/X

24734b4242a5fff8ba0e9b13c88a56a21e8efe38

注意,这里我们使用两个矩阵之间的每个元素乘法(而在上面的公式中,它是一个点积)

编码实现激活层

激活层的代码非常简单:

from layer import Layer
# inherit from base class Layer
class ActivationLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    def __init__(self, input_shape, activation, activation_prime):
        self.input_shape = input_shape;
        self.output_shape = input_shape;
        self.activation = activation;
        self.activation_prime = activation_prime;

    # returns the activated input
    def forward_propagation(self, input):
        self.input = input;
        self.output = self.activation(self.input);
        return self.output;

    # Returns input_error=dE/dX for a given output_error=dE/dY.
    # learning_rate is not used because there is no "learnable" parameters.
    def backward_propagation(self, output_error, learning_rate):
        return self.activation_prime(self.input) * output_error;

可以在单独的文件中编写一些激活函数以及它们的导数,稍后将使用它们构建ActivationLayer:

import numpy as np
# activation function and its derivative
def tanh(x):
    return np.tanh(x);

def tanh_prime(x):
    return 1-np.tanh(x)**2;

损失函数

到目前为止,对于给定的层,我们假设给出了E/Y(由下一层给出)。但是最后一层怎么得到E/Y?我们通过简单地手动给出最后一层的E/Y,它取决于我们如何定义误差。

网络的误差由自己定义,该误差衡量网络对给定输入数据的好坏程度。有许多方法可以定义误差,其中一种最常见的叫做MSE - Mean Squared Error:

53f4ffbba68fa46cee84859dda6278e5797f3304

其中y *y分别表示期望的输出实际输出。你可以将损失视为最后一层,它将所有输出神经元吸收并将它们压成一个神经元。与其他每一层一样,需要定义∂E/∂Y。除了现在,我们终于得到E

3168e387e33101ad7731ed0302c273cd7ef6f77d

以下是两个python函数,可以将它们放在一个单独的文件中,将在构建网络时使用。

import numpy as np

# loss function and its derivative
def mse(y_true, y_pred):
    return np.mean(np.power(y_true-y_pred, 2));

def mse_prime(y_true, y_pred):
    return 2*(y_pred-y_true)/y_true.size;

网络类

到现在几乎完成了!我们将构建一个Network类来创建神经网络,非常容易,类似于第一张图片!

我注释了代码的每一部分,如果你掌握了前面的步骤,那么理解它应该不会太复杂。


from layer import Layer

class Network:
    def __init__(self):
        self.layers = [];
        self.loss = None;
        self.loss_prime = None;

    # add layer to network
    def add(self, layer):
        self.layers.append(layer);

    # set loss to use
    def use(self, loss, loss_prime):
        self.loss = loss;
        self.loss_prime = loss_prime;

    # predict output for given input
    def predict(self, input):
        # sample dimension first
        samples = len(input);
        result = [];

        # run network over all samples
        for i in range(samples):
            # forward propagation
            output = input[i];
            for layer in self.layers:
                # output of layer l is input of layer l+1
                output = layer.forward_propagation(output);
            result.append(output);

        return result;

    # train the network
    def fit(self, x_train, y_train, epochs, learning_rate):
        # sample dimension first
        samples = len(x_train);

        # training loop
        for i in range(epochs):
            err = 0;
            for j in range(samples):
                # forward propagation
                output = x_train[j];
                for layer in self.layers:
                    output = layer.forward_propagation(output);

                # compute loss (for display purpose only)
                err += self.loss(y_train[j], output);

                # backward propagation
                error = self.loss_prime(y_train[j], output);
                # loop from end of network to beginning
                for layer in reversed(self.layers):
                    # backpropagate dE
                    error = layer.backward_propagation(error, learning_rate);

            # calculate average error on all samples
            err /= samples;
            print('epoch %d/%d   error=%f' % (i+1,epochs,err));

构建一个神经网络

最后!我们可以使用我们的类来创建一个包含任意数量层的神经网络!为了简单起见,我将向你展示如何构建......一个XOR。

from network import Network
from fc_layer import FCLayer
from activation_layer import ActivationLayer
from losses import *
from activations import *
import numpy as np

# training data
x_train = np.array([[[0,0]], [[0,1]], [[1,0]], [[1,1]]]);
y_train = np.array([[[0]], [[1]], [[1]], [[0]]]);

# network
net = Network();
net.add(FCLayer((1,2), (1,3)));
net.add(ActivationLayer((1,3), tanh, tanh_prime));
net.add(FCLayer((1,3), (1,1)));
net.add(ActivationLayer((1,1), tanh, tanh_prime));

# train
net.use(mse, mse_prime);
net.fit(x_train, y_train, epochs=1000, learning_rate=0.1);

# test
out = net.predict(x_train);
print(out);

同样,我认为不需要强调很多事情,只需要仔细训练数据,应该能够先获得样本维度。例如,对于xor问题,样式应为(4,1,2)。

结果

$ python xor.py 
epoch 1/1000 error=0.322980
epoch 2/1000 error=0.311174
epoch 3/1000 error=0.307195
...
epoch 998/1000 error=0.000243
epoch 999/1000 error=0.000242
epoch 1000/1000 error=0.000242
[array([[ 0.00077435]]), array([[ 0.97760742]]), array([[ 0.97847793]]), array([[-0.00131305]])]

卷积层

这篇文章开始很长,所以我不会描述实现卷积层的所有步骤。但是,这是我做的一个实现:

from layer import Layer
from scipy import signal
import numpy as np

# inherit from base class Layer
# This convolutional layer is always with stride 1
class ConvLayer(Layer):
    # input_shape = (i,j,d)
    # kernel_shape = (m,n)
    # layer_depth = output depth
    def __init__(self, input_shape, kernel_shape, layer_depth):
        self.input_shape = input_shape;
        self.input_depth = input_shape[2];
        self.kernel_shape = kernel_shape;
        self.layer_depth = layer_depth;
        self.output_shape = (input_shape[0]-kernel_shape[0]+1, input_shape[1]-kernel_shape[1]+1, layer_depth);
        self.weights = np.random.rand(kernel_shape[0], kernel_shape[1], self.input_depth, layer_depth) - 0.5;
        self.bias = np.random.rand(layer_depth) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.zeros(self.output_shape);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                self.output[:,:,k] += signal.correlate2d(self.input[:,:,d], self.weights[:,:,d,k], 'valid') + self.bias[k];

        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        in_error = np.zeros(self.input_shape);
        dWeights = np.zeros((self.kernel_shape[0], self.kernel_shape[1], self.input_depth, self.layer_depth));
        dBias = np.zeros(self.layer_depth);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                in_error[:,:,d] += signal.convolve2d(output_error[:,:,k], self.weights[:,:,d,k], 'full');
                dWeights[:,:,d,k] = signal.correlate2d(self.input[:,:,d], output_error[:,:,k], 'valid');
            dBias[k] = self.layer_depth * np.sum(output_error[:,:,k]);

        self.weights -= learning_rate*dWeights;
        self.bias -= learning_rate*dBias;
        return in_error;

它背后的数学实际上并不复杂!这是一篇很好的文章,你可以找到E/WE/BE/X的解释和计算。

如果你想验证你的理解是否正确,请尝试自己实现一些网络层,如MaxPooling,Flatten或Dropout

GitHub

你可以在GitHub库中找到用于该文章的完整代码。

本文由阿里云云栖社区组织翻译。

文章原标题《math-neural-network-from-scratch-in-python

作者:Omar Aflak 译者:虎说八道,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
11天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
143 55
|
21天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
112 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
3天前
|
JSON Dart 前端开发
鸿蒙应用开发从入门到入行 - 篇7:http网络请求
在本篇文章里,您将掌握鸿蒙开发工具DevEco的基本使用、ArkUI里的基础组件,并通过制作一个简单界面掌握使用
30 8
|
24天前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
67 3
图卷积网络入门:数学基础与架构设计
|
14天前
|
Web App开发 网络协议 安全
网络编程懒人入门(十六):手把手教你使用网络编程抓包神器Wireshark
Wireshark是一款开源和跨平台的抓包工具。它通过调用操作系统底层的API,直接捕获网卡上的数据包,因此捕获的数据包详细、功能强大。但Wireshark本身稍显复杂,本文将以用抓包实例,手把手带你一步步用好Wireshark,并真正理解抓到的数据包的各项含义。
64 2
|
19天前
|
数据可视化 编译器 Python
Manim:数学可视化的强大工具 | python小知识
Manim(Manim Community Edition)是由3Blue1Brown的Grant Sanderson开发的数学动画引擎,专为数学和科学可视化设计。它结合了Python的灵活性与LaTeX的精确性,支持多领域的内容展示,能生成清晰、精确的数学动画,广泛应用于教育视频制作。安装简单,入门容易,适合教育工作者和编程爱好者使用。
80 7
|
21天前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
54 3
|
26天前
|
网络安全 Python
Python网络编程小示例:生成CIDR表示的IP地址范围
本文介绍了如何使用Python生成CIDR表示的IP地址范围,通过解析CIDR字符串,将其转换为二进制形式,应用子网掩码,最终生成该CIDR块内所有可用的IP地址列表。示例代码利用了Python的`ipaddress`模块,展示了从指定CIDR表达式中提取所有IP地址的过程。
40 6
|
28天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
移动开发 网络协议 Linux
Python网络编程(socketserver、TFTP云盘、HTTPServer服务器模型)
Python网络编程 Python小项目 Python网盘 Python HTTP请求服务端
2156 0

热门文章

最新文章