卷积神经网络概述及python实现

简介: 本文概括地介绍CNN的基本原理 ,并通过阿拉伯字母分类例子具体介绍其实现过程,理论与实践的结合体。

对于卷积神经网络(CNN)而言,相信很多读者并不陌生,该网络近年来在大多数领域都表现优异,尤其是在计算机视觉领域中。但是很多工作人员可能直接调用相关的深度学习工具箱搭建卷积神经网络模型,并不清楚其中具体的原理。本文将简单介绍卷积神经网络(CNN),方便读者大体上了解其基本原理及实现过程,便于后续工作中的实际应用。本文将按以下顺序展开:

  • 了解卷积操作
  • 了解神经网络
  • 数据预处理
  • 了解CNN
  • 了解优化器
  • 理解 ImageDataGenerator
  • 进行预测并计算准确性
  • demo

什么是卷积?

在数学(尤其是函数分析)中,卷积是对两个函数(f和g)的数学运算,以产生第三个函数,该函数表示一个函数的形状如何被另一个修改。(来源:维基百科)

此操作在多个领域都有应用,如概率、统计、计算机视觉、自然语言处理、图像和信号处理、工程和微分方程。
该操作在数学上表示为:

0
卷积操作


查看 此链接以更加直观地了解卷积操作。

什么是人工神经网络?

人工神经网络(ANN)或连接系统是由构成动物大脑的生物神经网络模糊地启发的计算系统。这些系统通过从示例中“学习”以执行任务,通常不需要使用用任何特定规则来编程。(来源:维基百科)

人工神经网络是一个较小的处理单元集合,称为人工神经元,它们与生物神经元相似。

生物神经回路

1
生物神经回路


神经元之间的互联构成了一个网络模型

人工神经网络

2
人工神经网络


现在,我们开始具体实现。

导入必要的数据包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import tflearn.data_utils as du
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPool2D
from keras.optimizers import RMSprop
from keras.preprocessing.image import ImageDataGenerator
from sklearn.metrics import confusion_matrix

加载数据集

train_data = pd.read_csv('../input/csvTrainImages 13440x1024.csv', header = None)
train_label = pd.read_csv('../input/csvTrainLabel 13440x1.csv', header = None)
test_data = pd.read_csv('../input/csvTestImages 3360x1024.csv', header = None)
test_label = pd.read_csv('../input/csvTestLabel 3360x1.csv', header = None)

数据集

此处使用的数据集是手写数据集
trainIamges.csv有1024列和13440行。每列表示图像中的像素,每行表示一张单独的灰度图像。每个像素的取值范围是0到255之间的值。

train_data = train_data.iloc[:,:].values.astype('float32')
train_label = train_label.iloc[:,:].values.astype('int32')-1
test_data = test_data.iloc[:,:].values.astype('float32')
test_label = test_label.iloc[:,:].values.astype('int32')-1

可视化数据集

def row_calculator(number_of_images, number_of_columns):
    if number_of_images % number_of_columns != 0:
        return (number_of_images / number_of_columns)+1
    else:
        return (number_of_images / number_of_columns)

def display_image(x, img_size, number_of_images):
    plt.figure(figsize = (8, 7))
    if x.shape[0] > 0:
        n_samples = x.shape[0]
        x = x.reshape(n_samples, img_size, img_size)
        number_of_rows = row_calculator(number_of_images, 4)
        for i in range(number_of_images):
            plt.subplot(number_of_rows, 4, i+1)
            plt.imshow(x[i])

训练数据集

display_image(train_data, 32, 16)

3
训练数据集

测试数据集

display_image(test_data, 32, 16)

4
测试数据集

数据预处理

编码分类变量

什么是分类变量?

在统计学中,分类变量是一个可以承担限制变量之一的变量,基于某些定性属性将每个个体或其他观察单元分配给特定组或名义类别。(来源:维基百科)

简单来说,分类变量的值表示类别或类。

为什么需要编码分类变量?

直接对表示类别的数字执行操作没有意义。因此,需要对其进行分类编码。
请查看此链接以了解分类变量示例。
阿拉伯字母表中有28个字母。因此,数据集有28个类别。

train_label = du.to_categorical(train_label,28)

标准化

什么是标准化?

进行归一化以使整个数据进入明确定义的范围,一般选择归一化到0到1之间

在神经网络中,不仅要对数据进行标准化,还要对其进行标量化,这样处理的目的是能够更快地接近错误表面的全局最小值。(来源:Stack Overflow)

train_data = train_data/255
test_data = test_data/255

train_data = train_data.reshape([-1, 32, 32, 1])
test_data = test_data.reshape([-1, 32, 32, 1])

对其进行变形操作使得每条数据表示一个平面图像

train_data, mean1 = du.featurewise_zero_center(train_data)
test_data, mean2 = du.featurewise_zero_center(test_data)

按功能划分的零中心将每个样本的中心置零,并指定平均值。如果未指定,则对所有样品评估平均值。

建立CNN

recognizer = Sequential()

recognizer.add(Conv2D(filters = 32, kernel_size = (5,5),padding = 'Same', activation ='relu', input_shape = (32,32,1)))
recognizer.add(Conv2D(filters = 32, kernel_size = (5,5),padding = 'Same', activation ='relu'))
recognizer.add(MaxPool2D(pool_size=(2,2)))
recognizer.add(Dropout(0.25))

recognizer.add(Conv2D(filters = 64, kernel_size = (3,3),padding = 'Same', activation ='relu'))
recognizer.add(Conv2D(filters = 64, kernel_size = (3,3),padding = 'Same', activation ='relu'))
recognizer.add(MaxPool2D(pool_size=(2,2), strides=(2,2)))
recognizer.add(Dropout(0.25))

recognizer.add(Flatten())
recognizer.add(Dense(units = 256, input_dim = 1024, activation = 'relu'))
recognizer.add(Dense(units = 256, activation = "relu"))
recognizer.add(Dropout(0.5))
recognizer.add(Dense(28, activation = "softmax"))

最大池化(Max Pooling)是什么?

池化意味着组合一组数据,组合数据的过程中应该遵循一些规则。

根据定义,最大池化选取一组数据中的最大值作为其输出值。(来源:machinelearningonline.blog)

最大池还可以用于减小特征维度,它还可以避免过拟合的发生。查看此博客,以便更好地了解Max Pooling。

什么是Dropout?

Dropout是一种正则化技术,通过防止对训练数据进行复杂的协同适应来减少神经网络中的过拟合,这是神经网络模型中十分有效的方法之一。“ 丢失”指的是在神经网络中以某一个概率随机地丢弃部分神经单元。(来源:维基百科)

什么是Flatten?

对特征图进行展平,以将多维数据转换为一维特征向量,以供下一层(密集层)使用

什么是密集层?

密集层只是一层人工神经网络,也被称作全连接层。

CNN的优化方法

什么是优化?

优化算法帮助我们最小化(或最大化)目标函数,目标函数只是一个数学函数,取决于模型内部可学习的参数。模型中使用预测变量集(X)计算目标值(Y)。例如,我们将神经网络的权重(W)和偏差(b)值称为其内部可学习参数,用于计算输出值,并在最优解的方向上学习和更新这些参数,即最小化损失网络。这就是神经网络的训练过程。(来源:数据科学)

optimizer = RMSprop(lr=0.001, rho=0.9, epsilon=1e-08, decay=0.0)

本文在这里使用的优化器是RMSprop,点击此处以了解有关RMSprop的更多信息。

recognizer.compile(optimizer = optimizer , loss = "categorical_crossentropy", metrics=["accuracy"])

什么是ImageDataGenerator?

当你的数据集规模比较小时,你可能会应用到图像数据生成器,它用于生成具有实时增强的批量张量图像数据,扩大数据集规模。一般而言,当数据量增多时,模型性能会得更好。
以下代码用于批量加载图像:

datagen = ImageDataGenerator(
        featurewise_center=False, 
        samplewise_center=False,  
        featurewise_std_normalization=False,
        samplewise_std_normalization=False,
        zca_whitening=False,
        rotation_range=10,
        zoom_range = 0.1,  
        width_shift_range=0.1, 
        height_shift_range=0.1,
        horizontal_flip=False,
        vertical_flip=False)

datagen.fit(train_data)

CNN拟合训练数据

recognizer.fit_generator(datagen.flow(train_data,train_label, batch_size=100), epochs = 30, verbose = 2, steps_per_epoch=train_data.shape[0] // 100)

做出预测

predictions = recognizer.predict(test_data)
predictions = np.argmax(predictions,axis = 1)

生成混淆矩阵

什么是混淆矩阵?

混淆矩阵是用于总结分类算法性能的一种技术。如果每个类别中的观察数量不等,或者数据集中有两个以上的类,单独的分类准确性可能会产生误导。计算混淆矩阵可以让我们更好地了解分类模型的正确性以及它所犯的错误类型。来源:machinelearningonline.blog

cm = confusion_matrix(test_label, predictions)

计算准确性

accuracy = sum(cm[i][i] for i in range(28)) / test_label.shape[0]
print("accuracy = " + str(accuracy))

本文获得了97%的准确度,感兴趣的读者可以自己尝试下。

CNN手写数字识别demo

点击此链接可以实时查看CNN的工作情况,该demo显示了CNN的工作过程,以及每层输出的特征图。最后该CNN网络经过训练后能够识别手写数字。

5

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

Vishal R,机器学习爱好者
本文由阿里云云栖社区组织翻译。
文章原标题《Convolutional Neural Network — A Bird’s eye view with an implementation》,译者:海棠,审校:Uncle_LLD。
文章为简译,更为详细的内容,请查看原文

相关文章
|
5天前
|
机器学习/深度学习 人工智能 算法
Python中实现简单神经网络
【9月更文挑战第2天】本文将通过Python编程语言,介绍如何从零开始构建一个简单的神经网络。我们将使用纯Python代码,不依赖任何外部库,来展示神经网络的核心概念和工作原理。文章将详细解释每个步骤,并最终实现一个能够进行基本模式识别的神经网络模型。通过这篇文章,读者可以对神经网络有一个直观的理解,并为进一步学习深度学习打下坚实的基础。
|
8天前
|
安全 网络安全 开发者
探索Python中的装饰器:简化代码,增强功能网络安全与信息安全:从漏洞到防护
【8月更文挑战第30天】本文通过深入浅出的方式介绍了Python中装饰器的概念、用法和高级应用。我们将从基础的装饰器定义开始,逐步深入到如何利用装饰器来改进代码结构,最后探讨其在Web框架中的应用。适合有一定Python基础的开发者阅读,旨在帮助读者更好地理解并运用装饰器来优化他们的代码。
WK
|
6天前
|
数据采集 XML 安全
常用的Python网络爬虫库有哪些?
Python网络爬虫库种类丰富,各具特色。`requests` 和 `urllib` 简化了 HTTP 请求,`urllib3` 提供了线程安全的连接池,`httplib2` 则具备全面的客户端接口。异步库 `aiohttp` 可大幅提升数据抓取效率。
WK
20 1
|
8天前
|
机器学习/深度学习 人工智能 算法
使用Python实现简单的神经网络
【8月更文挑战第31天】本文将引导你通过Python编程语言实现一个简单的神经网络。我们将从基础的感知机开始,逐步构建起一个能够进行简单线性分类的神经网络模型。文章不仅提供了代码示例,还解释了每一行代码的作用,确保即使是初学者也能跟上进度。通过这篇文章,你将学会如何用Python搭建、训练并测试你自己的神经网络。
|
11天前
|
数据采集 机器学习/深度学习 人工智能
Python爬虫入门指南探索AI的无限可能:深度学习与神经网络的魅力
【8月更文挑战第27天】本文将带你走进Python爬虫的世界,从基础的爬虫概念到实战操作,你将学会如何利用Python进行网页数据的抓取。我们将一起探索requests库和BeautifulSoup库的使用,以及反爬策略的应对方法。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据抓取世界的大门。
|
7天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习入门:使用Python和TensorFlow构建你的第一个神经网络
【8月更文挑战第31天】 本文是一篇面向初学者的深度学习指南,旨在通过简洁明了的语言引导读者了解并实现他们的第一个神经网络。我们将一起探索深度学习的基本概念,并逐步构建一个能够识别手写数字的简单模型。文章将展示如何使用Python语言和TensorFlow框架来训练我们的网络,并通过直观的例子使抽象的概念具体化。无论你是编程新手还是深度学习领域的新兵,这篇文章都将成为你探索这个激动人心领域的垫脚石。
|
7天前
|
机器学习/深度学习 人工智能 算法
使用Python构建简易神经网络
【8月更文挑战第31天】在本文中,我们将一起探索如何用Python编程语言构建一个简单的神经网络。通过这个入门级项目,读者将学会如何使用基本的编程技能来模拟人脑的神经元网络。文章不仅解释了神经网络的核心概念,还提供了代码示例来帮助初学者理解如何实现一个能够进行简单模式识别的神经网络。
|
7天前
|
数据采集 存储 开发者
构建你的第一个Python网络爬虫:从理论到实践
【8月更文挑战第31天】在数字时代的浪潮中,数据成为了新的石油。本文将引导初学者通过Python编程语言搭建一个基础的网络爬虫,从互联网的海洋中提取有价值的信息。文章不仅会介绍网络爬虫的工作原理和应用场景,还会通过实际代码示例展示如何实现一个简单的爬虫项目。无论你是编程新手还是有一定基础的开发者,都能通过这篇文章获得宝贵的实践经验和技术洞见。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习入门:用Python实现一个简单的神经网络
【8月更文挑战第31天】本文将引导你走进深度学习的世界,通过Python代码示例,我们将一起构建并训练一个简单的神经网络。文章不仅会解释核心概念,还会展示如何将这些理论应用到实际的编程中。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供宝贵的学习资源。
|
7天前
|
数据采集 存储 JavaScript
构建你的首个Python网络爬虫:抓取、解析与存储数据
【8月更文挑战第31天】在数字时代的浪潮中,数据成为了新的石油。了解如何从互联网的海洋中提取有价值的信息,是每个技术爱好者的必备技能。本文将引导你通过Python编程语言,利用其强大的库支持,一步步构建出你自己的网络爬虫。我们将探索网页请求、内容解析和数据存储等关键环节,并附上代码示例,让你轻松入门网络数据采集的世界。

热门文章

最新文章

下一篇
DDNS