计算机视觉图像分类基础

简介: 计算机视觉图像分类基础

1、简介

视觉小白,针对视觉基础进行回顾,记录下个人学习过程,希望帮助刚入圈的小白有一定学习思路的帮助。从基础分类网络入手,针对目标检测常用的骨干网络进行讲解,便于后续轻量化目标检测的搭建。


2、计算机视觉介绍

计算机视觉主要分为目标分类、目标检测、目标分割三部分。


目标分类:对一个目标进行识别。


目标检测:对不同目标进行识别(例如动物园中不同动物进行识别)。


目标分割:对同一目标,不同类别进行识别(例如班级同学分别识别出来)


3、卷积神经网络

基础卷积神经网络主要由全连接层、卷积层、池化层三部分组成。


3.1全连接层:

由许多神经元构成,通过激励、权重、求和、偏置进行输出,如下图所示:


a583fe8790e3148be1c300d5ccf8b535.png


计算公式为:Y = f(X1*W1+X2*W2+X3*W3-1)


典型全连接层:BP神经网络如下所示:


8ea419cac4f67e0a6c59053d8a5bba67.png


流程为:


1.首先神经元按列进行排序

2.接着每列神经元进行全连接

3.正向输出与期望值比对,得到误差值

4.最后对节点求偏导,得到误差梯度,实现反向应用至损失梯度,实现反向传播。


3.2卷积层

卷积目的:主要是对图像进行特征提取。


具有局部感知机制、权值共享两种特性目的是为了减少参数数量,使得运算变得简洁、高效,实现大规模数据集进行运算。下面通过三维图像卷积过程进行讲解。


输入特征矩阵如下所示:


dd7e642238ee6c59c690161763fbaf47.png


输入几维图像就会对应有几个分量,卷积核深度=分量个数,如下所示:


0674898f85546fa7b18b1dec93759f8a.png


输出特征矩阵个数=卷积核个数,如下所示:


0428a64f369838fb41705c1dda73a8ce.png


卷积核在输入特征矩阵上按步长进行滑动计算,初始计算如下所示:


fe54b611beefee5a51e62d720a029f6a.png


卷积计算公式:N = (W-F+2P)/S+1


W:输入图片大小


F:滑动框大小


P:像素


S:步长


在卷积过程中,通常会使用激活函数,目的为:增加神经网络模型的非线性。


卷积方式与BP方式进行特征提取参数比较如下所示:


对于一个1280X720的图片,假设神经元个数为1000,参数为:1280X720X1000 = 9211600000。


对于一个1280X720的图片,假设有1000个5X5X卷积核,参数为:5X5X1000 = 25000。


3.3 池化层

池化层又叫下采样层,目的是对特征图进行稀疏处理,减少运算量,具有如下特点:


1.没有训练参数

2.只改变特征矩阵的高、宽,不改变深度


通常有最大池化层、平均池化层两种方式,方式如下图所示:


10d15a2bb5b2aa6fb544ef3ca1e0a56a.png


上文如有错误,恳请各位大佬指正。


相关文章
|
2月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
74 1
|
2月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
59 2
|
2月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
2月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
105 1
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
14 1
|
2月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
125 0
|
11月前
|
机器学习/深度学习 传感器 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
|
11月前
|
机器学习/深度学习 编解码 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
|
机器学习/深度学习 人工智能 并行计算
深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet模型结构、实现、模型特点详细介绍
深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet模型结构、实现、模型特点详细介绍
深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet模型结构、实现、模型特点详细介绍
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍
深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍
10609 1
 深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍