AIGC背后的技术分析 | 机器学习中的卷积神经网络

简介: 卷积神经网络(convolutional neural network)是一种前馈神经网络, 广泛应用于图像识别领域。进行图像识别任务时,若使用传统的全连接神经网络,网络的第一层参数会非常多。针对此问题,人们考虑是否能够结合图像识别任务的特点来简化全连接神经网络。

640.jpg


通过观察,研究者发现了以下3条性质。

① 某些模式总是存在于局部区域。例如,熊猫眼睛的特点可以作为识别熊猫的一种模式,包含熊猫眼睛的区域比整张图像小很多。要识别出这些模式,一个神经元并不需要与整张图像的所有像素相连,只需要与某些小区域相连接。连接到小的区域意味着少的网络参数。

② 相同的模式会出现在多个区域,也就是同一特征可以出现在不同图像的不同位置。例如,不同图像中熊猫的眼睛位置有所不同。图1展示了不同图像中熊猫眼睛的位置。这意味着隐含层中很多神经元做的事情几乎是一样的,都是在捕获熊猫眼睛的特点。因此,不同的神经元可以共享相同的参数,共享参数可以有效减少参数的数量。

640.png


图1不同图像中熊猫眼睛的位置

③ 对图像中的像素做下采样(subsampling)不会影响物体的识别。对一张图像进行下采样,可以得到原始图像的缩略图,而图像中要识别的模式并不会受到很大影响,可参考图2展示的对图像进行下采样之后的效果。对图像进行下采样可以减小图像的大小,进而减少神经网络的参数。

640.png


图2 图像进行下采样之后的效果

卷积神经网络就是参考了以上三条性质,对原始全连接神经网络结构进行调整与设计得到的。卷积神经网络由一个或多个卷积层(convolutional layer)与一个或多个全连接层构建,其中图像经过卷积层之后获得的表示通常会进行下采样操作,也称为池化操作。卷积神经网络进行池化操作的层称为池化层(pooling layer)。下面具体介绍卷积神经网络中的卷积层与池化层。

假设输入是M ×M ×R 的图像,其中M 表示图像的长和宽(图像的长和宽也可以不等),R 是图像的通道(channel)数。例如,对于彩色RGB图像,R=3,对于灰度图像,R=1。

卷积层与一般的全连接层不同,不再使用权重矩阵表示所有神经元节点在相邻网络层之间的一一对应关系,而是使用多组共享参数来构建两个网络层之间的联系。在卷积网络中,共享参数称为卷积核。一个卷积层可以使用K 个大小为N ×N ×R 的不同卷积核,其中N <M 。经过一层卷积操作之后,输入图像会转化成K 个大小为(M -N +1)×(M -N +1)的矩阵,通道数变为K 。图3给出了卷积操作的原理示意图。如图所示,卷积操作的具体计算如下:

(1)在所有通道的数据张量(图像)中选取与对应的卷积核W(k)尺寸相同的窗口Xi(k),并与之进行逐点乘运算W(k)⊙Xi(k),k=1,2。
(2)把对应张量W(r)⊙Xi(r)中的所有元素求和,得到每个窗口的标量表示。

(3)窗口在原数据张量中滑动,可以得到一个(M-N+1)×(M-N+1)的矩阵,矩阵的每一个元素对应每个窗口的标量表示。由于使用了个不同卷积核,将会得到个矩阵的新张量。

640.png


图3 卷积操作的原理示意图

可以发现,经过卷积操作之后,数据的长宽尺寸会变小,如果要保持卷积前后的长宽不变,需要对原数据进行填补操作,即在原数据矩阵的周围填补0。假设卷积核的尺寸为,当填补的长和宽为时,可以保证数据在经过卷积操作后长宽不变。卷积核的长和宽通常设置为奇数,因为这样填补的长和宽都是偶数,可以平均分配在数据矩阵的周围。

池化层通常接在卷积层之后。池化操作是对数据进行下采样,通常是在的连续区域上取均值池化或者取最大值池化,通常不超过5。通常在池化层之前或者之后增加一个偏置项和非线性激活函数。

卷积神经网络可以使用多个卷积层和池化层的组合,最后将所有通道的数据作为向量输入全连接层,为实现具体任务构建端到端的映射。卷积神经网络参数的求解使用反向传播算法。总的来说,卷积神经的结构设计利用了图像或其他结构化数据的多维结构,通过引入共享的卷积核以及池化等操作,捕获了数据中模式的位移不变性,减少了网络的参数。

目录
相关文章
|
1月前
|
搜索推荐
师资培训|AIGC在高校教学中的应用场景与案例分析-某产教科技公司
北京新大陆时代科技有限公司举办新一代信息技术名家大讲坛系列培训,旨在提升教师专业素质,加强“双师型”教师队伍建设。TsingtaoAI作为培训伙伴,提供全面支持。培训涵盖AIGC在高校教学的应用场景、教案生成及个性化教学资源定制等内容,助力提升教学质量与人才培养。
69 0
|
8天前
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
42 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
4月前
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
189 4
|
26天前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
58 1
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
55 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
2月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
102 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AIGC的底层技术:人工智能通用计算架构
探索AIGC的底层技术:人工智能通用计算架构
108 3
|
1月前
|
人工智能 自然语言处理 搜索推荐
超越边界:探索2023年AIGC技术盛宴,预测前沿科技的奇迹 🚀
本文探讨了互联网内容生产从PGC、UGC到AIGC的演变,特别关注了AIGC(人工智能生成内容)的发展及其对未来内容生产的深远影响。文章详细介绍了AIGC的定义、技术进展(如生成算法、多模态技术、AI芯片等),并展示了AIGC在多个领域的广泛应用,如代码生成、智能编程、个性化服务等。未来,AIGC将在各行各业创造巨大价值,推动社会进入更加智能化的时代。同时,文章也探讨了AIGC对开发者的影响,以及其可能无法完全取代人类的原因,强调开发者可以利用AIGC提升工作效率。
38 0
|
1月前
|
机器学习/深度学习 自然语言处理 Go
Python与Go在AIGC领域的应用:比较与分析
Python与Go在AIGC领域的应用:比较与分析
40 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
作为AIGC技术的一种应用-bard
8月更文挑战第22天
63 15