计算机视觉图像分类基础

简介: 计算机视觉图像分类基础

1、简介

视觉小白,针对视觉基础进行回顾,记录下个人学习过程,希望帮助刚入圈的小白有一定学习思路的帮助。从基础分类网络入手,针对目标检测常用的骨干网络进行讲解,便于后续轻量化目标检测的搭建。


2、计算机视觉介绍

计算机视觉主要分为目标分类、目标检测、目标分割三部分。


目标分类:对一个目标进行识别。


目标检测:对不同目标进行识别(例如动物园中不同动物进行识别)。


目标分割:对同一目标,不同类别进行识别(例如班级同学分别识别出来)


3、卷积神经网络

基础卷积神经网络主要由全连接层、卷积层、池化层三部分组成。


3.1全连接层:

由许多神经元构成,通过激励、权重、求和、偏置进行输出,如下图所示:


a583fe8790e3148be1c300d5ccf8b535.png


计算公式为:Y = f(X1*W1+X2*W2+X3*W3-1)


典型全连接层:BP神经网络如下所示:


8ea419cac4f67e0a6c59053d8a5bba67.png


流程为:


1.首先神经元按列进行排序

2.接着每列神经元进行全连接

3.正向输出与期望值比对,得到误差值

4.最后对节点求偏导,得到误差梯度,实现反向应用至损失梯度,实现反向传播。


3.2卷积层

卷积目的:主要是对图像进行特征提取。


具有局部感知机制、权值共享两种特性目的是为了减少参数数量,使得运算变得简洁、高效,实现大规模数据集进行运算。下面通过三维图像卷积过程进行讲解。


输入特征矩阵如下所示:


dd7e642238ee6c59c690161763fbaf47.png


输入几维图像就会对应有几个分量,卷积核深度=分量个数,如下所示:


0674898f85546fa7b18b1dec93759f8a.png


输出特征矩阵个数=卷积核个数,如下所示:


0428a64f369838fb41705c1dda73a8ce.png


卷积核在输入特征矩阵上按步长进行滑动计算,初始计算如下所示:


fe54b611beefee5a51e62d720a029f6a.png


卷积计算公式:N = (W-F+2P)/S+1


W:输入图片大小


F:滑动框大小


P:像素


S:步长


在卷积过程中,通常会使用激活函数,目的为:增加神经网络模型的非线性。


卷积方式与BP方式进行特征提取参数比较如下所示:


对于一个1280X720的图片,假设神经元个数为1000,参数为:1280X720X1000 = 9211600000。


对于一个1280X720的图片,假设有1000个5X5X卷积核,参数为:5X5X1000 = 25000。


3.3 池化层

池化层又叫下采样层,目的是对特征图进行稀疏处理,减少运算量,具有如下特点:


1.没有训练参数

2.只改变特征矩阵的高、宽,不改变深度


通常有最大池化层、平均池化层两种方式,方式如下图所示:


10d15a2bb5b2aa6fb544ef3ca1e0a56a.png


上文如有错误,恳请各位大佬指正。


相关文章
|
6月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
113 2
|
2月前
|
机器学习/深度学习 编解码 自动驾驶
计算机视觉之图像到图像的翻译
图像到图像的翻译(Image-to-Image Translation)是指将一种图像从一种表示转换为另一种表示的过程。该任务的目标是在保证图像语义信息的前提下,将图像风格、颜色或其他视觉特征进行转换。该技术在计算机视觉领域具有广泛应用,例如图像风格迁移、图像修复、图像增强、超分辨率、语义分割等。
43 4
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
597 1
|
6月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
62 1
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
236 3
|
4月前
|
机器学习/深度学习 XML 计算机视觉
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。

热门文章

最新文章