备案控制台

开发者社区人工智能文章正文

卷积神经网络入门基础

2023-06-29 106

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 卷积神经网络入门基础

文章和代码已经归档至【Github仓库：https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 神经网络基础 也可获取。

CNN

卷积神经网络发展史

卷积神经网络（convolutional neural networks, CNN )
CNN 是针对图像领域任务提出的神经网络，经历数代人的发展，在2012年之后大部分图像任务被CNN统治，例如图像分类，图像分割，目标检测，图像检索等。

CNN结构受视觉系统启发：1962 年，生物学家Torsten WieseI 和 David H. Hubel（1981年的诺贝尔医学奖）对猫的视觉系统进行研究，首次发现猫的视觉系统中存在层级机构，并且发现了两种重要的细胞 simple cells 和 compIex cells，不同类型细胞承担不同抽象层次的视觉感知功能。

猫的视觉系统实验

在猫脑上打开 3mm, 插入电极
让猫看各种形状、位置、亮度和运动的光条
观察大脑视觉神经元激活情况

神经元存在局部感受区域 ( receptive field)，也称感受野

细胞感受区域存在差异：如C细胞和D细胞相反(图中X表示有响应，三角表示无响应)

在这里插入图片描述

细胞对角度有选择性。如图所示的该细胞对垂直光条响应最强。

在这里插入图片描述

细胞对运动方向有选择性（如图，a种方式感应更加强烈）

对CNN启发：

视觉系统是分层、分级的进行处理，从低级到高级的抽象过$\to$类比堆叠使用卷积和池化
神经元实际上是存在局部的感受区域的，具体来说，它们是局部敏感$\to$类比神经元局部连接

第一个卷积神经网络雏形——新认知机（Neocognitron）

1980 年，日本学者福岛邦彦(Kunihiko Fukushima) 借鉴猫视觉系统实验结论，提出具有层级结构的神经网络一一新认知机，堆叠使用类似于S细胞和C细胞的两个结构。S细胞和 C 细胞可类比现代CNN的卷积和池化。

缺点：没有反向传播算法更新权值，模型性能有限。

福岛邦彦主页：http://personalpage.flsi.or.jp/fukushima/index-e.html

第一个大规模商用卷积神经网络——Lenet-5

1989 年，Lecun 等人已开始研究Lenet；1998 年，Lecun等人提出Lenet-5，并成功在美国邮政系统中大规模应用于手写邮政编码识别

缺点：无大量数据和高性能计算资源

第一个技惊四座的卷积神经网络——AlexNet

2012年，AlexNet以超出第二名10.9个百分点的成绩夺得ILSVRC分类任务冠军，从此拉开卷积神经网络通知图像领域序幕。

算料：ImageNet
算力：GPU(GTX580 * 2)
算法：AlexNet

卷积操作

卷积层（Convolutional Layer）

图像识别特点：

特征具有局部性：例如老虎重要特征“王字”仅出现在头部区域 —— 卷积核每次仅连接K*K区域，K*K是卷积核尺寸；

特征可能出现在任何位置——卷积核参数重复使用（参数共享），在图像上滑动（示例图像来源：https://github.com/vdumoulin/conv_arithmetic）

在这里插入图片描述

0×0+1x1+3×2+4×3 =19

下采样图像，不会改变图像目标

卷积核

卷积核：具可学习参数的算子，用于对输入图像进行特征提取，输出通常称为特征图（feature maps）。

具体的过程可以根据实际情况模拟以下，例如第一个边缘检测的卷积核，如果一个像素差别不大的图像，经过该卷积核卷积过程后，大概率是中间的8份额减去旁边的8个1份额，最后为0，显示为黑色。如果存在边缘非常明显的部分，经过减少之后数值仍然较大，显示为白色，因此可以形成边缘的轮廓。

2012年AlexNet网络第一个卷积层卷积核可视化，卷积核呈现边缘、频率和色彩上的特征模式。

填充 (Padding)：在输入图像的周围添加额外的行/列

作用:

使卷积后图像分辨率不变，方便计算特征图尺寸的变化
弥补边界信息“丢失"

步幅（Stride） ：卷积核滑动的行数和列数称为步幅，控制输出特征图的大小，会被缩小1/s倍。

卷积会向下取整，到边界不满足信息的话，会向下取整。（即使存在边缘信息，但是如果不满足步幅，也会舍弃）

输出特征图尺寸计算：

$$ \mathrm{F}_{\mathrm{o}}=\left[\frac{\mathrm{F}_{\text {in }}-\mathrm{k}+2 \mathrm{p}}{\mathrm{s}}\right]+1 $$

$$ > \frac{[4-3+2 * 0]}{1}+1=2 > $$

$$ > \frac{[6-3+2 * 1]}{2}+1=3 > $$

$$ > \frac{[5-3+2 * 1]}{1}+1=5 > $$

多通道卷积 ： RGB图像是3*h*w的三维的数据，第一个维度3，表示channel，通道数

一个卷积核是3-D张量，第一个维与输入通道有关

注：卷积核尺寸通常指高、宽

如上，卷积核的规模为2x3x3x3。本质上还是一个二维卷积。

池化操作

图像识别特点

下采样图像，不会改变图像目标——降低计算量，减少特征冗余

池化：一个像素表示一块区域的像素值，降低图像分辨率

一块区域像素如何被一个像素代替：

方法1: Max Pooling，取最大值
方法2: Average Pooling，取平均值

现在的模型中很多都不太用池化操作，而采用一个步长为2的卷积代替池化，通过它也可以实现降低图像的分辨率。（池化也可以理解为一种特殊的卷积，例如可以将Max pooling理解为一个最大值权值为1，其他权值为0的卷积核，将Average Pooling理解为一个平均权值的卷积核）。

因此输出尺寸计算与卷积操作类似：（注意：池化层无可学习参数）

$$ \mathrm{F}_{\mathrm{o}}=\left\lfloor\frac{\mathrm{F}_{\text {in }}-\mathrm{k}+2 \mathrm{p}}{\mathrm{s}}\right\rfloor+1 $$

池化作用 ：

缓解卷积层对位置的过度敏感

第一行为原矩阵，第二行为卷积后的矩阵，第三行为池化后的矩阵。左右对比可知，添加扰动后卷积结果受到影响，但是池化结果并未受到影响。参考：https://zhuanlan.zhihu.com/p/103350961
减少冗余
降低图像分辨率，从而减少参数量

Lenet-5及CNN结构进化史

1998-Lecun-Gradient-Based Learning Applied to Document Recognition

特征提取器：C1、S2、C3、S4

C1层：卷积核K1=(6, 1, 5, 5), p=1, s=1，output=(6, 28, 28)
S2层：最大池化层，池化窗口=(2,2)，s=2，output=(6, 14, 14)
C3层：卷积核K3=(16, 6, 5, 5), p=1, s=1，output=(16, 10, 10)
S4层：最大池化层，池化窗口=(2,2)，s=2，output=(16, 5, 5)

分类器：3个FC层

FC层： 3个FC层输出分类

CNN进化史

1980 Neocognition 福岛邦彦
1998 Lenet-5 Lecun
2012 AlexNet Alex
2014 GoogLenet Google
2014 VGG-Net VGG
2015 ResNet Kaiming He
2017 DenseNet Gao Huang
2017 SE-Net Jie Hu

参考

所有卷积示例图像的来源：https://github.com/vdumoulin/conv_arithmetic

文章标签：

计算机视觉

编解码

机器学习/深度学习

数据可视化

异构计算

算法

关键词：

卷积网络

网络入门

卷积神经网络

卷积网络入门

卷积神经网络入门

timerring

目录

相关文章

子午s

|

9天前

|

机器学习/深度学习人工智能算法

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

宠物识别系统使用Python和TensorFlow搭建卷积神经网络，基于37种常见猫狗数据集训练高精度模型，并保存为h5格式。通过Django框架搭建Web平台，用户上传宠物图片即可识别其名称，提供便捷的宠物识别服务。

子午s

134 55 55

子午s

|

19天前

|

机器学习/深度学习人工智能算法

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

宠物识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫（Abyssinian）', '孟加拉猫（Bengal）', '暹罗猫（Birman）', '孟买猫（Bombay）', '英国短毛猫（British Shorthair）', '埃及猫（Egyptian Mau）', '缅因猫（Maine Coon）', '波斯猫（Persian）', '布偶猫（Ragdoll）', '俄罗斯蓝猫（Russian Blue）', '暹罗猫（Siamese）', '斯芬克斯猫（Sphynx）', '美国斗牛犬

子午s

107 29 29

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

Deephub

|

22天前

|

机器学习/深度学习资源调度算法

图卷积网络入门：数学基础与架构设计

本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念，详细解析了GCN的工作机制。

Deephub

58 3 3

图卷积网络入门：数学基础与架构设计

猫林老师

|

1天前

|

JSON Dart 前端开发

鸿蒙应用开发从入门到入行 - 篇7：http网络请求

在本篇文章里，您将掌握鸿蒙开发工具DevEco的基本使用、ArkUI里的基础组件，并通过制作一个简单界面掌握使用

猫林老师

18 8 8

jsjsjjs

|

12天前

|

Web App开发网络协议安全

网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark

Wireshark是一款开源和跨平台的抓包工具。它通过调用操作系统底层的API，直接捕获网卡上的数据包，因此捕获的数据包详细、功能强大。但Wireshark本身稍显复杂，本文将以用抓包实例，手把手带你一步步用好Wireshark，并真正理解抓到的数据包的各项含义。

jsjsjjs

58 2 2

游客nmbcre4jd7shs

|

18天前

|

机器学习/深度学习人工智能自然语言处理

深入理解深度学习中的卷积神经网络（CNN）##

在当今的人工智能领域，深度学习已成为推动技术革新的核心力量之一。其中，卷积神经网络（CNN）作为深度学习的一个重要分支，因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现，为读者提供一个全面了解CNN的窗口。 ##

游客nmbcre4jd7shs

57 3 3

mrq4nk6ni2neg

|

19天前

|

机器学习/深度学习人工智能算法

深度学习入门：用Python构建你的第一个神经网络

在人工智能的海洋中，深度学习是那艘能够带你远航的船。本文将作为你的航标，引导你搭建第一个神经网络模型，让你领略深度学习的魅力。通过简单直观的语言和实例，我们将一起探索隐藏在数据背后的模式，体验从零开始创造智能系统的快感。准备好了吗？让我们启航吧！

mrq4nk6ni2neg

44 3 3

程序员彭于晏

|

25天前

|

机器学习/深度学习人工智能自然语言处理

深入理解深度学习中的卷积神经网络（CNN）

深入理解深度学习中的卷积神经网络（CNN）

程序员彭于晏

44 0 0

shuj

|

28天前

|

机器学习/深度学习人工智能自然语言处理

深度学习中的卷积神经网络（CNN）：从理论到实践

本文将深入浅出地介绍卷积神经网络（CNN）的工作原理，并带领读者通过一个简单的图像分类项目，实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据，并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈，这篇文章都将为你提供宝贵的知识和技能。

shuj

112 7 7

Java时光

|

25天前

|

机器学习/深度学习自然语言处理算法

深入理解深度学习中的卷积神经网络（CNN）

深入理解深度学习中的卷积神经网络（CNN）

Java时光

35 1 1

热门文章

最新文章

通过VISO来绘制神经网络图模型

用纯Python实现循环神经网络RNN向前传播过程(吴恩达DeepLearning.ai作业)

手把手教你如何提高神经网络的性能

图像分类_02神经网络(NN)简介：定义+ 感知机+历史

训练深度神经网络的时候需要注意的一些小技巧

DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法

我搭的神经网络不 work 该怎么办！看看这 11 条新手最容易犯的错误

复旦大学邱锡鹏教授发布《神经网络与深度学习》教材，配备代码和章节练习

语音合成到了跳变点？深度神经网络变革TTS最新研究汇总

神经网络来袭！划重点：60分钟入门，这是最深入浅出的一次

Kubernetes学习-集群搭建篇(二) 部署Node服务，启动JNI网络插件

什么是网络安全等级保护测评（等保测评）？

网络安全与信息安全：保护你的数据，保护你的世界

网络防御前线：洞悉漏洞、加密之盾与安全意识觉醒

探索现代网络安全的多层次防御机制

网络安全与信息安全：防御前线的关键技术与意识觉醒

数字堡垒的构建者：网络安全与信息安全的深层剖析

Linux网络编程网络基础知识

开发板配置网络ssh登入

网络编程知识点总结（7）

相关课程

更多

TCP/IP 网络基础

云计算工程师解析与实战-网络专家篇（体验版）

云网络白皮书-阿里云网络系列课

企业上云攻略-阿里云网络产品应用系列教程

Linux网络进阶 - TCP/IP协议及OSI七层模型

网络管理者必知-2分钟了解新出台的《网络安全法》

相关电子书

更多

Session：更加安全、可靠的数据中心网络产品更新

Session：极简易用的全球化网络产品更新

Session：弹性、高可用、可观测的应用交付网络产品更新

相关实验场景

更多

容器的网络入门

容器的自定义网络

容器的共享网络模型

使用阿里云容器服务和容器网络文件系统搭建WordPress网站

下一篇

【案例实战】SpringBoot整合阿里云文件上传OSS