人工智能图像识别四大算子（一）

2023-05-18 496

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

简介： 人工智能图像识别四大算子（一）

背景引入

图像识别是当今计算机科学最热门的研究方向之一。随着科学技术的发展和人类社会的不断进步，图像识别技术在很多行业得到了广泛的应用。本章除了对图像识别基本概念进行介绍外，还将从图像识别基本算法与实际应用等几个方面引导读者利用Python以及所需第三方工具进行相关的编程实践。

图像识别发展简介

图像识别（Image Recognition）是人工智能的一个重要研究领域。它以图像的主要特征区域（检测目标）为基础，通过数据获取一系列的相关处理，并采用各种算法来对目标图像进行检测，识别与理解。其中，图象是承载检测目标的载体，而检测目标则需事先进行特征提取，归纳。最终通过相应的算法分离出来。通常情况下，一个图像识别系统主要由图像分割图像特征提取，分类与识别3个部分组成。其中，图像分割主要用于将图像划分成多个区域，而图像特征提取则是从图像中寻找最具区分能力的特征，分类与识别则是按照图像特征所提取的结果进行适当的分类。

图像识别的发展经历了三个阶段：文字识别（Character Recognition），数字图像处理（Digital Image Processing）与识别，物体识别（Object Recognition）。

①.文字识别的研究从20世纪50年代开始，主要是识别字母，数字和符号，包括印刷文字以及手写文字等，应用非常广泛。

②.数字图像处理与识别的研究始于20世纪70年代，数字图像与模拟图像相比具有易于存储，便于传输，可压缩，传输过程中不易失真，处理方便等巨大优势，这些都为图像识别技术的发展提供了有力支持。

③. 物体识别技术起源于20世纪50年代，他是计算机视觉领域中的一个重要分支，其主要任务是识别出图像中有什么物体，并指出该物体在图像场景中的位置和方向等相关信息。随着人工智能，大数据和深度学习技术的不断发展，以及3D传感器，深度摄像头等硬件的不断升级，利用深度信息进行三维物体识别技术的广泛应用，让物体识别领域有了较大发展。目前，物体识别方法主要有基于模型的识别和基于上下文（Context）的识别。

图像识别的数学本质是模式空间到类别空间的映射。目前在图像识别技术的发展过程中，主要有三种识别方法：统计模式识别，结构模式识别以及模糊模式识别

边缘检测算法

边缘检测是图像处理和计算机视觉，尤其是图像特征提取中的一个重要研究领域。图像的边缘是图像的重要特征，是计算机视觉，模式识别的基础，是图像处理中一个重要的环节。通常情况下，人们可以仅凭一个剪影或草图来识别出物体的类型或姿态，而剪影就由边缘特征构成。边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常包括：深度上的不连续，表面方向不连续，物质属性变化和场景照明变化等图像边缘检测会大幅度减少数据量，并剔除不相关的信息，只保留图像重要的结构属性。

人类视觉系统认识目标的过程分为两步：首先，将图像边缘与背景分离出来；然后，感知图像的细节，辨认出图像的轮廓。计算机视觉正是模仿人类视觉的这个过程，在检测物体边缘时，先对其轮廓点进行粗略检测，然后通过连接规则把原来检测到的轮廓点连接起来，同时也检测和连接遗漏的边界点以及除去虚假的边界点。

如果我们需要检测一幅图像的边缘，我们首先需要明确知晓边缘的特征。对于一幅灰度图像而言，边缘两边的灰度值肯定不同，因此，当我们检测灰度图像的边缘时，就需要找出图像何处的灰度值变化最大。显然，灰度值变化越大，对比度越大，边缘也就越明显。

在数学中，与变化率息息相关的是导数。如果灰度图像的像素是连续的，那么我们可以对图像G的x方向和y方向分别求导数：

Gx=f'（G,x）Gy=f'(G,y)

获得x方向的图像导数Gx和y方向的图像导数Gy。Gx和Gy分别隐含了x方向和y方向的灰度变化信息，也就是隐含了图像的边缘信息。

如果要在同一图像上包含两个方向的边缘信息，我们可以用梯度。原图像G的梯度向量Gxy为（Gx，Gy），梯度向量的大小|Gxy|和方向∠Gxy可用以下两个公式进行计算：

|Gxy|=^(Gx²+Gy²) ∠Gxy=arctan(Gy/Gx)

梯度向量的大小就包含了x方向和y方向的边缘信息。

实际上，图像矩阵是离散的。连续函数求变化率用的是导数，而离散函数求变化率用的是差分。差分的概念也很容易理解，就是用相邻两个数的差来表示变化率。下面公式是向后差分

x方向的差分：Gx（n,y）=G(n,y)-G(n-1,y) y方向的差分：Gy（x,n）=Gy(x,n)-Gy(x,n-1)

实际计算图像导数时，我们是通过原图像和一个 **算子(Operator)进行卷积计算来完成的（该方法是求图像的近似导数）。所谓“算子”就是数学中的映射。如果映射的作用是把函数映射到函数或者把函数映射到数，那么这种映射就被称为算子。广而言之，对任何函数进行某一项操作皆可以认为是一个算子，甚至包括求幂，开方等皆可认为是一个算子，只是有的算子我们用符号来代替他们的主要运算。对于图像边缘检测的常见算子有 Prewitt算子，Sobel算子，Laplace算子，Canny算子等

Prewitt算子

Prewitt算子是最简单的图像求导算子，也是一种常用的边缘检测一阶微分算子。它利用像素点左右上下，左右相邻点的灰度差在边缘处达到极值来进行边缘检测。Prewitt算子在图像空间利用两个方向模板与图像进行领域卷积(Adjacent Convolution)运算来完成边缘检测。在图像处理中，卷积是常用的一种运算，通常是使用一个卷积核（算子）对图像中的每个像素进行一系列操作从而得到新的像素值。Prewitt算子有两个方向模板，一个用于水平方向（x）方向的边缘检测，一般设置为 01fc212df5357e2f21bf8ce70ee750e9_6e9937d8d0b7400da5e2d4198ac384ab.png

;另一个则用于垂直方向上（y）的边缘检测，一般设置为： cac72854ce5619ab90e25bdf7ee05b72_abdf1d559cb9464aa3b0d1af2fc26ffd.png

前面我们已经介绍过卷积算法，这里就直接使用，不再过度介绍。

示例代码：

import numpy as np #用于处理图像矩阵，算子矩阵即相关运算
from PIL import Image #图像处理模块
import matplotlib.pyplot as plt
import matplotlib.cm as cm
#定义图像卷积函数
'''
Scipy库中的signal模块含有一个二维卷积函数convolved2d（） 后面就会直接使用
'''
def img_conv(image_array,operator):
    image=image_array.copy()#原图像矩阵的深拷贝
    dim1,dim2=image.shape
    #将矩阵中的每个元素与算子矩阵中的对应元素相乘再求和（忽略最外圈的边框像素）
    for i in range(1,dim1-1):
        for j in range(1,dim2-1):
            image[i,j]=(image_array[(i-1):(i+2),(j-1):(j+2)]*operator).sum()
        #由于卷积后各元素的值不一定为0~255，需归一化0~255
    image=image*(255.0/image.max())
    #返回结果矩阵
    return image
#定义x方向的Prewitt算子
operator_x=np.array([[-1,0,-1],[-1,0,-1],[-1,0,-1]])
#定义y方向上的prewitt算子
operator_y=np.array([[-1,-1,-1],[0,0,0],[1,1,1]])
#打开原图并将其转化为灰度图像
image=Image.open('D:\Python\.vscode\__pycache__\.vscode\__pycache__\opencv视图\Python爬虫\图形化界面\\123.png').convert('L')
image_array=np.array(image)
#得到x方向导数矩阵
image_x=img_conv(image_array,operator_x)
#得到y方向上的导数矩阵
image_y=img_conv(image_array,operator_y)
#得到梯度矩阵
image_xy=np.sqrt(image_x**2+image_y**2)
#将梯度矩阵个元素的值归一为0~255
image_xy=(255.0/image_xy.max())*image_xy
plt.subplot(2,2,1)
plt.imshow(image_array,cmap=plt.cm.gray)
plt.axis('off')
plt.subplot(2,2,2)
plt.imshow(image_x,cmap=plt.cm.gray)
plt.axis('off')
plt.subplot(2,2,3)
plt.imshow(image_y,cmap=plt.cm.gray)
plt.axis('off')
plt.subplot(2,2,4)
plt.imshow(image_xy,cmap=plt.cm.gray)
plt.axis('off')
plt.show()

Prewitt算子虽然可以检测出图像边缘，但是结果较为粗糙，图像带有大量高频噪声。下面我们可以介绍更为精细的算法。

Sobel算子

Sobel算子是典型的边缘检测一阶微分算子。它利用像素临近区域的梯度值来计算1个像素的梯度值，然后根据一定的绝对值来取舍。在技术上他是离散性的差分算子，用于计算图像亮度函数的梯度近似值。由于Sobel算子中引入了类似局部平均的运算，因此对噪声具有平滑作用，能很好地消除噪声影响。Sobel算子对于像素的位置的影响进行了加权，与Prewitt算子相比效果更佳。Sobel算子由两个3x3矩阵表示的卷积核组成，通常其中一个对垂直边缘响应最大，另一个则对水平边缘响应最大。两个卷积核分别代表水平和垂直方向的算子，将其与原图像进行卷积运算，即可分别得到水平与垂直方向的亮度差分近似值。实际使用中，常用如下两个算子对图像边缘进行检测：

检测水平方向的Sobel算子： 8f3080a2390ed0a4f9f2c1db2673fca5_35a95de7ee87456098e98bb32d845557.png

检测垂直水平方向的Sobel算子： 0c13d5b0017d2fc2855f237f84531087_e14dd0b636f64876a77df8fcca891613.png

图像的每一个像素的横向及纵向梯度近似值可以用以下公式来计算其大小：

G=sqrt（Gx²+Gy²）（sqrt表示开方）

然后用以下的公式计算梯度值：

β=arctan(Gx/Gy)

如果β的值为0，则表示图像在该处拥有垂直边缘，左方较右方暗。利用Sobel算子进行边缘检测示例代码:

#利用Sobel算子进行边缘检测
import numpy as np #算子矩阵处理
from PIL import Image  #图片导入
import matplotlib.cm as cm  #用于色彩映射
import scipy.signal as signal  #使用signal中的convolve2d卷积算法
import matplotlib.pyplot as plt #绘图
#定义x方向的Sobel算子
operator_x=np.array([[-1,0,1],[-2,0,2],[-1,0,1]])
#定义y方向的sobel算子
operator_y=np.array([[-1,-2,-1],[0,0,0],[1,2,1]])
#打开图像并将其转化为灰度图像
Image=Image.open('D:\Python\.vscode\__pycache__\.vscode\__pycache__\opencv视图\Python爬虫\图形化界面\\123.png').convert('L')
#转换成图像矩阵
image_array=np.array(Image)
#x方向的导数矩阵
image_x=signal.convolve2d(image_array,operator_x,mode='same') #标签：full,valid,same
image_y=signal.convolve2d(image_array,operator_y,mode='same')
#得到梯度矩阵
image_xy=np.sqrt(image_x**2+image_y**2)
#将梯度矩阵归一化为0~255
image_xy=image_xy*(255/image_xy.max())
#输出边缘检测图像
plt.subplot(2,2,1)
plt.imshow(image_array,cmap=cm.gray)
plt.axis('off')
plt.subplot(2,2,2)
plt.imshow(image_x,cmap=cm.gray)
plt.axis('off')
plt.subplot(2,2,3)
plt.imshow(image_y,cmap=cm.gray)
plt.axis('off')
plt.subplot(2,2,4)
plt.imshow(image_xy,cmap=cm.gray)
plt.axis('off')
plt.show()

除了上述的通过Sobel算子卷积运算进行图像边缘检测。我们也可以通过Opencv中自带的Sobel函数来进行图像检测，示例代码如下：

#基于opencv中的sobel算子函数
import cv2
import numpy as np
from PIL import Image
#读取原图
#Image=Image.open('D:\Python\.vscode\__pycache__\.vscode\__pycache__\opencv视图\Python爬虫\图形化界面\\123.png').convert('L')
image=cv2.imread('D:\Image\one.jpg')
#将图像转换为灰度图像
image=cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
cv2.imshow('Original',image)
cv2.waitKey() #等待按键
'''
Sobel边缘检测，其中SobelX为x方向导数图像，SobelY为y方向导数图像，SobelCombined为梯度图像
'''
SobelX=cv2.Sobel(image,cv2.CV_64F,1,0)
SobelY=cv2.Sobel(image,cv2.CV_64F,0,1)
#x方向梯度的绝对值
SobelX=np.uint8(np.absolute(SobelX))
#y方向梯度的绝对值
SobelY=np.uint8(np.absolute(SobelY))
sobelCombined=cv2.bitwise_or(SobelX,SobelY)
cv2.imshow('Sobel X',SobelX)
cv2.waitKey()
cv2.imshow('Sobel Y',SobelY)
cv2.waitKey()
cv2.imshow('Sobel Combined',sobelCombined)
cv2.waitKey()