【深度学习】卷积核的基本概况(上)

简介: 【深度学习】卷积核的基本概况

前言


在机器学习篇章中,我们简单介绍了卷积核,今天,梳理一下对卷积核一些基本情况。


正文


什么是卷积核


在数学上,卷积核的标准定义是两个函数在反转和移位后的乘积的积分:


0.png


其中,函数g一般称为过滤器(filters),函数f指的是信号/图像。在卷积神经网络里,卷积核其实就是一个过滤器,但在深度学习里,它不做反转,而是直接执行元素的乘法和加法,我们把这个又称为互相关,在深度学习里称为卷积。


那为什么在图像处理上,需要进行卷积处理呢。实际上是借鉴于科学家的研究结果——上个世纪科学家就发现,视觉皮层的很多神经元都有一个小的局部感受野,神经元只对有限区域的感受野上的刺激物做出反应不同的感受野可以重叠,他们共同铺满整个视野。并且发现,一些神经元仅仅对横线有反应,有一些神经元对其他方向的线条有反应,有些神经元的感受野比较大。因此,高级别的神经元的刺激是源于相邻低级别神经元的反应


利用这个观点,经过不断的努力,逐渐发展成了现在的卷积神经网络。通过卷积核提取图像的局部特征,生成一个个神经元,再经过深层的连接,就构建出了卷积神经网络。


我们已经知道,一个卷积核一般包括核大小(Kernel Size)步长(Stride)以及填充步数(Padding),我们逐一解释下。

卷积核大小:卷积核定义了卷积的大小范围,在网络中代表感受野的大小,二维卷积核最常见的就是 3*3 的卷积核。一般情况下,卷积核越大,感受野越大,看到的图片信息越多,所获得的全局特征越好。但大的卷积核会导致计算量的暴增,计算性能也会降低。

步长:卷积核的步长代表提取的精度, 步长定义了当卷积核在图像上面进行卷积操作的时候,每次卷积跨越的长度。对于size为2的卷积核,如果step为1,那么相邻步感受野之间就会有重复区域;如果step为2,那么相邻感受野不会重复,也不会有覆盖不到的地方;如果step为3,那么相邻步感受野之间会有一道大小为1颗像素的缝隙,从某种程度来说,这样就遗漏了原图的信息。

填充:卷积核与图像尺寸不匹配,会造成了卷积后的图片和卷积前的图片尺寸不一致,为了避免这种情况,需要先对原始图片做边界填充处理。


卷积的通道形式


所谓的通道数,可以理解为有多少张二维矩阵图


  • 单通道形式


对于具有1个通道的图像,下图演示了卷积的运算形式:


4.gif

这里的filter是一个3*3矩阵,步长是1,填充为0。filter在输入数据中滑动。在每个位置,它都在进行逐元素的乘法和加法。每个滑动位置以一个数字结尾,最终输出为3 x 3矩阵。


  • 多通道形式


多通道也很容易理解,最典型的就是处理彩色图片,一般有三个通道(RGB):


00.jpg


实际上,一个filter也可以包含多个矩阵,也即kernels,比如一个包含三个kernels的filter,对于输入是三个通道的图像:


6.gif


这里输入层是一个5 x 5 x 3矩阵,有3个通道,filters是3 x 3 x 3矩阵。首先,filters中的每个kernels分别应用于输入层中的三个通道,执行三次卷积,产生3个尺寸为3×3的通道。


然后,将这三个通道相加(逐个元素相加)以形成一个单个通道(3 x 3 x 1),该通道是使用filters(3 x 3 x 3矩阵)对输入层(5 x 5 x 3矩阵)进行卷积的结果:


8.gif


由此,我们引出卷积核的另外一个参数——输入输出通道数。

输入和输出通道数:卷积核的输入通道数由输入矩阵的通道数所决定(输入深度);输出矩阵的通道数由卷积核的输出通道数(卷积层深度,即多少个filters)所决定。


2D卷积与3D卷积


上面的多通道过程解释的详细点:


假设输入层有 Din 个通道,而想让输出层的通道数量变成 Dout,我们需要做的仅仅是将 Dout个filters应用到输入层中。每一个filters都有Din个卷积核,都提供一个输出通道。在应用Dout个filters后,Dout个通道可以共同组成一个输出层。



我们把上面的卷积过程称为2D-卷积——通过使用Dout个filters,将深度为Din的层映射为另一个深度为Dout的层。



16.jpg



进一步,我们给出2D-卷积的公式:


15.png


特别的,对于卷积核,如果w=h=1,那么就退化为1*1卷积核,它具有以下三个优点:


  • 降维以实现高效计算
  • 高效的低维嵌入特征池
  • 卷积后再次应用非线性


下图是一个例子:


14.jpg


在一个维度为 H x W x D 的输入层上经过大小为 1 x 1 x D 的filters的 1 x 1 卷积,输出通道的维度为 H x W x 1。如果我们执行 N 次这样的 1 x 1 卷积,然后将这些结果结合起来,我们能得到一个维度为 H x W x N 的输出层。


通过将2D-卷积的推广,在3D-卷积定义为filters的深度小于输入层的深度(即卷积核的个数小于输入层通道数)


因此,3D-filters需要在三个维度上滑动(输入层的长、宽、高)。在filters上滑动的每个位置执行一次卷积操作,得到一个数值。当filters滑过整个3D空间,输出的结构也是3D的:


13.jpg


2D-卷积和3D-卷积的主要区别为filters滑动的空间维度,3D-卷积的优势在于描述3D空间中的对象关系,它的计算过程是:

相关文章
|
机器学习/深度学习
【深度学习】卷积核的基本概况(下)
【深度学习】卷积核的基本概况(下)
|
1天前
|
机器学习/深度学习 算法 计算机视觉
深度学习在图像识别中的应用与挑战
【5月更文挑战第18天】 随着深度学习技术的迅速发展,其在图像识别领域的应用已经取得了显著的成果。本文将探讨深度学习在图像识别中的关键作用,分析其技术实现的基本原理,并讨论当前面临的主要挑战以及未来的发展趋势。我们将重点介绍卷积神经网络(CNN)的结构与优化策略,同时对比不同深度学习模型的性能表现,并提出针对性的改进方法。通过实验结果的分析,本文旨在为图像识别技术的进步提供理论支持和实践指导。
|
1天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶领域的应用
【5月更文挑战第18天】随着科技的发展,深度学习技术在各个领域的应用越来越广泛。特别是在自动驾驶领域,基于深度学习的图像识别技术已经成为了关键技术之一。本文将详细介绍基于深度学习的图像识别技术在自动驾驶领域的应用,包括其原理、实现方法以及面临的挑战和未来发展趋势。
19 5
|
1天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
【5月更文挑战第18天】 随着人工智能技术的飞速发展,深度学习作为其核心推动力之一,在图像识别领域取得了显著的成就。本文将探讨深度学习技术在图像识别任务中的运用,重点分析卷积神经网络(CNN)的结构和优化策略,以及在实际应用中所面临的主要挑战,如模型泛化能力、数据不平衡和对抗性攻击等。通过综合现有文献和最新研究成果,本文旨在为读者提供一个关于深度学习在图像识别领域的应用现状和未来趋势的全面视角。
|
1天前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第18天】 随着人工智能技术的飞速发展,特别是深度学习在图像识别领域的突破性进展,自动驾驶技术已经从科幻走向现实。本文旨在探讨如何将基于深度学习的图像识别技术集成到自动驾驶系统中,以提升车辆的环境感知能力、决策效率及安全性。文中不仅回顾了当前自动驾驶中图像识别的关键挑战,还介绍了几种前沿的深度学习模型及其在处理复杂交通场景下的有效性。此外,本文还将讨论数据预处理、增强技术以及模型优化策略对提高自动驾驶系统性能的重要性。
|
1天前
|
机器学习/深度学习 监控 自动驾驶
深度学习在图像识别中的创新应用
【5月更文挑战第18天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉进步的核心动力。尤其在图像识别领域,通过构建和训练复杂的神经网络模型,深度学习技术能够实现对图像内容的高效准确识别。本文将探讨深度学习在图像识别中的最新应用,分析其背后的关键技术,并展望未来的发展趋势。我们将重点讨论卷积神经网络(CNN)的优化策略、数据增强的重要性以及迁移学习的实践案例,旨在为读者提供一个关于如何利用深度学习技术提升图像识别性能的全面视角。
|
1天前
|
机器学习/深度学习 计算机视觉
深度学习在图像识别中的应用进展
【5月更文挑战第18天】 随着计算机视觉技术的飞速发展,深度学习已成为图像识别任务的核心动力。本文综述了深度学习技术在图像识别领域的最新进展,包括卷积神经网络(CNN)的变种结构、迁移学习策略以及增强学习机制。通过分析现有文献和研究成果,本文揭示了深度学习模型在处理复杂图像数据时的优势和挑战,并提出了未来研究的潜在方向。
|
1天前
|
机器学习/深度学习 自然语言处理 算法
深度探索自适应学习率调整策略在深度学习优化中的应用
【5月更文挑战第17天】 在深度学习的复杂网络结构中,学习率扮演着至关重要的角色。一个合适的学习率可以加快收敛速度,避免陷入局部最小值,并提高模型性能。然而,固定的学习率往往难以适应不同阶段的训练需求。因此,自适应学习率调整策略应运而生,其通过动态调整学习率以响应训练过程中的变化,从而提升优化效率。本文将深入分析几种先进的自适应学习率方法,探讨它们的工作原理、优缺点及在实际问题中的应用效果。
|
2天前
|
机器学习/深度学习 算法 数据可视化
深度学习在图像识别中的应用及其挑战
【5月更文挑战第17天】随着科技的发展,深度学习已经在各个领域中得到了广泛的应用,其中图像识别是其最为重要的应用领域之一。本文将探讨深度学习在图像识别中的应用,以及在实际应用中面临的挑战和解决方案。
|
2天前
|
机器学习/深度学习 监控 自动驾驶
深度学习在图像识别中的应用与挑战
【5月更文挑战第17天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域革新的核心技术之一。特别是在图像识别任务中,深度神经网络通过模拟人脑对视觉信息的处理机制,显著提高了识别精度和处理速度。本文聚焦于深度学习在图像识别领域的应用现状,探讨了其背后的关键技术,包括卷积神经网络(CNN)的变体、数据增强、迁移学习以及注意力机制等。同时,文章也分析了当前面临的主要挑战,如数据集偏差、模型泛化能力、计算资源需求及对抗性攻击等,并提出了可能的解决方案。