基于内容的图像检索系统设计与实现(1)

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 基于内容的图像检索系统设计与实现(1)

摘 要

基于内容的图像检索系统(Content Based Image Retrieval, 以下简称 CBIR),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。本文实现的 CBIR 系统,允许用户输入一张图像,在图像数据库中查找具有相同或相似内容的其它图片。本文共实现七种方法基于内容的图像检索,其中基于深度学习的迁移学习法可以得到最好的检索效果,三种特征信息综合的方法次之。本文实现的方法分别是:基于颜色信息的图像检索,包括:HSI中心矩法和HSV中心矩法;基于纹理特征的图像检索,采用灰度共生矩阵实现;基于形状特征的图像检索,采用形状不变矩法;基于综合信息的图像检索,包括将三种特征信息综合的方法,主成分分析法,基于深度学习的迁移学习法。文主要工作如下:

(1) 研究了基于颜色的HSI中心矩法和HSV中心矩法在图像检索系统中的应用。首先介绍了RGB颜色空间,HSI颜色空间和HSV颜色空间,然后实现了基于颜色HSI中心矩法和HSV中心矩法图像检索的方法。

(2) 研究了纹理特征在图像检索中的应用。首先介绍了灰度共生矩阵进行纹理特征的原理,然后具体实现了灰度共生矩阵实现图像检索的方法。

(3) 研究了形状特征在图像检索系统中的应用。分别介绍了形状不变矩法和边缘直方图法实现基于形状的图像检索方法,实现了基于形状不变矩法图像检索的方法。

(4) 研究了三种特征信息综合的方法。本文实现了将HSI中心矩法,灰度共生矩阵法和形状不变矩法三种方法得到的特征值结合起来,作为一个维数更高的特征向量,对图像内容进行检索。

(5) 研究了主成分分析法进行图像特征提取的方法。首先介绍了主成分分析法的基本原理,然后具体实现了运用主成分分析法进行图像检索。

(6) 研究了迁移学习方法在图像检索系统中的应用。首先介绍了DenseNet201的网络结构,然后对图片数据集进行划分,采用了的预训练模型进行图像类别识别得到图片类别,最后结合三种特征信息筛选出相似图片完成图像检索。


Abstract

Content-based image retrieval system is a research branch in the field of computer vision that focuses on large-scale digital image content retrieval. The CBIR system implemented in this article allows users to input an image and search for other images with the same or similar content in the image database. This article implements seven methods of content-based image retrieval, of which the transfer learning method based on deep learning can get the best retrieval effect, and the three methods of feature information integration are the second. The methods implemented in this paper are: image retrieval based on color information, including: HSI central moment method and HSV central moment method; image retrieval based on texture features, using gray-level co-occurrence matrix; image retrieval based on shape features, using shape Variable moment method; image retrieval based on comprehensive information, including the method of integrating three kinds of characteristic information, principal component analysis method, and transfer learning method based on deep learning. The main work of this article is as follows:

(1) Research the application of color-based HSI central moment method and HSV central moment method in image retrieval system. First introduced the RGB color space, HSI color space and HSV color space, and then realized the method of image retrieval based on the color HSI central moment method and HSV central moment method.

(2) The application of texture features in image retrieval is studied. Firstly, the principle of the gray-level co-occurrence matrix for texture feature is introduced, and then the method of the gray-level co-occurrence matrix to realize image retrieval is realized.

(3) The application of shape feature in image retrieval system is studied. The shape-invariant moment method and the edge histogram method are respectively introduced to realize the shape-based image retrieval method, and the method based on the shape invariant moment method is realized.

(4) Three methods of feature information synthesis are studied. In this paper, the eigenvalues obtained by the three methods of HSI central moment method, gray-level co-occurrence matrix method and shape invariant moment method are combined to retrieve the image content as a higher-dimensional eigenvector.

(5) The method of principal component analysis for image feature extraction is studied. First introduced the basic principle of the principal component analysis method, and then concretely realized the use of principal component analysis method for image retrieval.

(6) Research the application of transfer learning method in image retrieval system. First, the network structure of DenseNet201 is introduced, and then the image data set is divided, the pre-training model is used to identify the image category to obtain the image category, and finally the three kinds of feature information are combined to screen out similar images to complete the image retrieval.


第一章 绪论

1.1 课题研究背景与意义

近年来,随着通信及多媒体技术、计算机网络、大容量存储器以及数字化图像设备如扫描仪、数字相机等技术的迅速发展,对数字图像的使用包括国防军事、工业制造、医疗卫生、新闻媒体、大众娱乐和家庭生活等各个方面。在如此广泛的应用背景下,产生了大量的各式各样的图像数据库,图像数据出现了按指数级增长的趋势。如何更好地应用视觉数据,实现方便、快速、准确地查询和检索到用户所需的图像信息,使管理者可以从大量的单调的人工管理工作中解放出来,已成为人们迫切需要解决的问题。

传统的数据库检索方法在进行上述方面的信息检索时,效果往往不够理想。这是因为传统数据库在进行信息检索时,主要依据关键字和文本信息进行检索。不能提供相似性检索。基于文本的检索是指对图像文件建立关键字或文本标题以及一些附加信息对图像进行描述,然后将图像的存储路径和图像的关键词建立联系。这种方法的缺点主要在于:随着大量图像的出现,需要大量的人力物力去管理和注释这些图像;不同的人对同一幅图像的理解不同,文本描述信息相对主观,不准确等等。因而仅仅基于关键词的检索已经不能满足用户的检索要求。并且,传统的数据库检索结果与信息的组织方式及查询结果的显示方式有关,无法按照查询结果的相似程度进行输出。

为了解决上述问题基于内容的图像检索应运而生。CBIR与传统的文本信息的检索不同,它是直接对图像的内容进行分析,通过计算机程序自动原图像的内容特征并按一定规则进行量化,得到特征向量用来表征整个图像。在此基础上,利用这些已经得到的特征向量建立索引进行检索。基于内容的图像检索系主要是把图像的颜色、纹理、形状等可视化特征作为图像的内容特征进行匹配、查找。特征的提取和匹配过程完全可以由机器自动完成, 可以解决手工注释的低效性和二义性。


1.2 国内外研究现状

在20世纪70年,数据库专家便已经着手研究图像数据信息的管理方案,管理图像数据信息在早期,主要方法通常是对图像文件附加描述信息,例如编号,主题,作者,发布时间等文本信息,以及通过人工方式对图像内容进行描述的关键词并将这些记录与图像在磁盘上的存储路径建立关联。由此可见,早期的图像检索技术很大程度上依赖于人工对图像的标注,在数据库中存储图像描述记录,然后基于文本关键词在数据中进行检索,并没有利用原始的图像内容信息,其在本质上依然是文本信息检索。随着数据库技术的长足进步,大型商业数据库已经可以支持以二进制形式存储图像,但是在管理方式上,依旧是通过图像描述信息建立联系。

基于内容的图像检索技术由Smeulders AWM在20世纪90年代提出,主要研究内容为图像的特征提取,特征匹配,特征索引以及检索评价指标等,该技术的主要思想是利用计算机视觉和数字图像处理的方法实现对图像内容的视觉特征的分析及提取,映射为特征向量,用以对图像的视觉特征的描述,并引进度量函数,以此衡量图像间的相似度,从而达到从图像数据库中检索出相似度较高的图像的目的[1]。

传统的CBIR技术原理主要利用了低层次的视觉特征,比如颜色信息,结构信息,纹理信息等,它们大多数使用浅层分类器,如SVM 来对图像语义进行分类。传统的CBIR技术均是基于低层次的视觉特征相似性判定,这样使得系统存在-一个瓶颈,它和人类从高级的图像语义特征得到的相似性的往往存在差距,或称之为“语义鸿沟”。

在高层次上,CBIR技术属于人工智能领域,在解决语义鸿沟问题上,机器学习是现阶段中所开发的技术里最具有前景的技术[2]。随着Hinton等人在深度学习模型优化问题取得了巨大进步[3],深度技术得到了快速发展,是人工智能领域在近几十年来取得长足进步的重要技术。深度学习发展自人工神经网络,是机器学习相关领域中一系列算法的简称,至今其框架种类已十分丰富,如深度神经网络(Deep Neural Network, DNN),卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络( Recurrent Neural Network, RNN),它们在图像及视频分析,语音识别,自然语言处理等多媒体均匀大量应用,并取得前所未有的成功。其中视觉表征领域中,使用最为广泛的模型为卷积神经网络,该模型允许局部感受野,与人类视觉感受相符,权值共享策略使得训练参数较全链接网络大量减少,实现以少量参数从原始图像到抽象语义表征映射[4]。


第二章 相关内容综述

2.1 图像检索的系统结构

基于内容的图像检索技术是对输入的图像进行分析并分类统一建模,提取其颜色、纹理、形状等特征,建立特征索引, 存储于特征数据库中[5]。检索时,用户提交查询的源图像,通过用户接口设置查询条件,可以采用一种或几种的特征组合来表示,然后在图像数据库中提取出查询到的所需关联图像,按照相似度从大到小的顺序,反馈给用户。用户可根据自己的满意程度,选择是否修改查询条件,继续查询,以达到满意的查询结果。

基于内容的图像检索系统框架如图1所示。系统的核心是图像特征数据库。图像特征可以从图像本身提取得到, 又可以通过用户交互获得, 并用于计算图像之间的相似度计算。系统框架应主要包含以下几个基本功能模块:检索方法设置、检索结果浏览、数据库管理维护等。其逻辑结构如图2所示。

image.png


图1 基于内容的图像检索框架

image.png


图2 基于内容的图像检索系统逻辑模型


本文的CBIR系统典型界面如图3所示。该界面主要包括:待检索图像实现渲染,检索出的50幅图像滚动显示区域、树形控件、检索菜单参数设置等。

image.png

图3 CBIR系统实现示例界面


2.2 图像预处理

图像预处理的方法主要包括:统一图像大小,使得每一幅待检索图像大小一致;图像降噪,避免图像噪声带来的影响。可使用数字图像处理课程中所学各种方法,如高斯模板、中值滤波等来实现;图像增强,主要用来增强对比度等。可使用数字图像处理课程中所学各种方法,如直方图均衡化等方法实现。

本文主要采用了统一图像大小与中值滤波进行图片预处理。


2.3 图像的特征提取

图像的特征提取主要针对图像的颜色,纹理和形状。图像颜色特征采用HSI 中心矩法和HSV中心矩法为每张图片获取九个特征值,以图片路径作为关键字用“–>”分隔,存放在图像特征数据库中。图像纹理特征采用灰度共生矩阵法为每张图片获取八个特征值,以相同的格式存放在图像特征数据库中。图像形状特征采用形状不变矩法为每张图片获取七个特征值,存放在图像特征数据库中。

对于综合属性检索,本文采用三种 “特征向量”:a) 三种特征综合的方法:将上述得到的图像颜色特征(HSI 中心矩法),图像纹理特征(灰度共生矩阵法)和图像形状特征(形状不变矩法)三个向量化为一个维数更高的特征向量。b) 主成分分析法:对图像进行预处理后,再对其进行主成分分析得到一个由64个主成分值组成的向量作为特征向量。c) 迁移学习法:利用网络DenseNet201训练模型,通过训练好的模型为每张图片打上类别标签,然后在进行图像检索时首先选出同类图像,然后再根据三种特征综合的方法为每张图像计算相似度。


2.4 相似度匹配

在基于内容的图像检索中,两幅图像是否相似是指图像的特征向量是否相似。常用的图像相似性测度通常采用几何模型,将图像特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征之间的相似度。基于内容的图像检索算法主要有最邻近查询算法和区间查询算法,它们都依赖于距离函数或者相似性度量[6]。算法步骤如下:

(1) 按照前文方法,计算出待检索图像的特征。

(2) 利用距离度量函数计算待检索图像特征和图像特征库间的距离。

(3) 对计算出的距离值按照相似性大小进行高低排序。

(4) 对计算出的距离值按照相似性大小进行高低排序

下面分别以图像的直方图和中心矩为例来说明图像特征匹配的相似性度量函数计算方法。

(1) 一般欧氏距离函数

image.png


(2) 加权距离函数

image.png


(3) 相交法度量函数

image.png


(4) 中心矩法的度量函数

image.png


本文为用户提供以上四种距离函数的实现接口,用户可以根据自己的需要选择所需的相似性度量函数计算方法,如图4所示。

image.png


图4 相似性度量函数选择框


2.5 数据库的构建和实现

本文采用文本数据库的形式存储所有的特征向量,以“文件绝对路径–>特性向量/类别标签”的形式存储在txt文件中。采用HSI 中心矩法得到的图像颜色特征;采用HSV中心矩法得到的图像颜色特征;采用灰度共生矩阵法得到的图像纹理特征;采用形状不变矩法得到的图像形状特征;主成分分析法得到的图像主成分特征;迁移学习法得到的图像类别标签。


2.6 系统介绍

界面最上方菜单栏依次是:“文件”,“基于颜色检索”,“基于纹理检索”,“基于形状检索”,“综合属性检索”,“帮助”六个选项,在下面进行详细阐述。界面左上方是图库目录,展示图库中所有的图片的地址;界面左侧中间提供“中心矩”,“欧氏距离”,“加权距离”,“相交法度量”四种距离度量函数选择框,紧接着右侧提供“复位”按钮,用户可以将系统从不合理状态进行复位,保证系统鲁棒性。界面左下方实时展示当前需要检索的图片。界面右侧实时显示检索的结果,支持多达50张相似图片的滚动显示,如图5所示。当检索完毕后,用户可以点击匹配出的相似图片,系统绘制出目标图片与结果图片最相似的20个相似特征点,如图6所示。

image.png


图5 检索结果渲染

image.png


图6 相似特征点


对于菜单栏的“基于颜色检索”选项,当用户点击时会出现HIS,HSV两种方法的选择框,用户可以按需选择,如图7所示。

image.png


图7 HSI和HSV选择框


对于菜单栏的“综合属性检索”选项,当用户点击时会出现三种特征综合法,主成分分析法,迁移学习法三种方法的选择框,用户可以按需选择,如图8所示。

image.png


图8 三种方法选择框


本系统的一个特色是,当用户点击菜单栏的“帮助”选项时,系统会主动跳转到该系统的帮助网站首页,如图9所示。

image.png


图9 系统帮助网站首页


系统首页介绍了一些CBIR系统的基本信息,网页右侧是菜单栏包括“介绍,使用用法,下载和其他”,点击“使用用法”选项进入系统使用方法说明网页,如图10所示。点击“下载”选项进入系统下载网页,在该网页用户可以下载系统源代码及数据集,如图11所示。

image.png


图10 系统帮助网站使用方法页


image.png

图11 系统下载网页


第三章 基于颜色特征的图像检索技术

颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的检索性。利用颜色特征进行检索的方法主要基于直方图,如:直方图相交法,比例直方图法,距离法,参考颜色表法和聚类算法,累计直方图法,此外,还有 HSI中心矩法。


3.1 颜色空间

3.1.1 RGB颜色空间

RGB(red,green,blue)颜色空间最常用的用途就是显示器系统,彩色阴极射线管,彩色光栅图形的显示器 都使用R、G、B数值来驱动R、G、B 电子枪发射电子,并分别激发荧光屏上的R、G、B三种颜色的荧光粉发出不同亮度的光线,并通过相加混合产生各种颜色;扫描仪也是通过吸收原稿经反射或透射而发送来 的光线中的R、G、B成分,并用它来表示原稿的颜色[7]。RGB色彩空间称为与设备相关的色彩空间,因为不同的扫描仪扫描同一幅图像,会得到不同色彩的图像数据;不同型号的显示器显示同一幅图像,也会有不同的色彩显示结果。


3.1.2 HSI颜色空间

HSI色彩空间是从人的视觉系统出发,用色调(Hue)、色饱和度(Saturation或Chroma)和亮度 (Intensity或Brightness)来描述色彩[8]。HSI色彩空间可以用一个圆锥空间模型来描述。用这种 描述HSI色彩空间的圆锥模型相当复杂,但确实能把色调、亮度和饱和度的变化情形表现得很清楚。 通常把色调和饱和度通称为色度,用来表示颜色的类别与深浅程度。由于人的视觉对亮度的敏感程度远强于对颜色浓淡的敏感程度,为了便于色彩处理和识别,人的视觉系统经常采用HSI色彩空间,它比RGB色彩空间更符合人的视觉特性。在图像处理和计算机视觉中大量算法都可在HSI色彩空间中方便地使用,它们可以分开处理而且是相互独立的。因此,在HSI色彩空间可以大大简化图像分析和处理的工作量。HSI色彩空间和RGB色彩空间只是同一物理量的不同表示法,因而它们之间存在着转换关系。


3.1.3 HSV颜色空间

HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1。它包含RGB模型中的R=1,G=1,B=1 三个面,所代表的颜色较亮[9]。色彩H由绕V轴的旋转角给定。红色对应于角度0°,绿色对应于角度120°,蓝色对应于角度240°。在HSV颜色模型中,每一种颜色和它的补色相差180°。 饱和度S取值从0到1,所以圆锥顶面的半径为1。HSV颜色模型所代表的颜色域是CIE色度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在圆锥的顶点(即原点)处,V=0,H和S无定义, 代表黑色。圆锥的顶面中心处S=0,V=1,H无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同灰度的灰色。对于这些点,S=0,H的值无定义。可以说,HSV模型中的V轴对应于RGB颜色空间中的主对角线。在圆锥顶面的圆周上的颜色,V=1,S=1,这种颜色是纯色。HSV模型对应于画家配色的方法。画家用改变色浓和色深的方法从某种纯色获得不同色调的颜色,在一种纯色中加入白色以改变色浓,加入黑色以改变色深,同时加入不同比例的白色,黑色即可获得各种不同的色调。


3.2 HSI中心矩法

颜色矩(color moments)是由Stricker 和Orengo所提出的一种非常简单而有效的颜色特征[10]。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。因此,图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中,为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前,起到过滤缩小范围(narrow down)的作用。

HSI中心矩法算法步骤如下所示:

(1) 图像灰度化 Gray=0.30R+0.59G+0.11*B。

(2) 将图像从 RGB 颜色空间转至 HSI 颜色空间.

(3) 以 HSI 空间的 Hue 分量为例,如果记 Hue(pi)为图像 P 的第 i 个像素的 Hue 值,则其前三阶中心矩分别为:

image.png


(4) 将特征值存放在图像特征数据库中。

3.3 HSV中心矩法

HSV中心矩法与HSI中心矩法及其类似,只是颜色空间不同,因此不在此处赘述。


3.4 实验结果与分析

选择三张代表性图片进行实验,分别是:/yin_yang/image_0001.jpg,/accordion/image_0001.jpg,/airplanes/image_0001.jpg,如图12所示。

image.png


图12 三张实验图片


选择这三张图片的原因:对于第一张图片,它具有良好的颜色特征和形状特征,对于第二张图片,它具有良好的纹理特征,而第三张图片的颜色特征,纹理特征和形状特征均不明显,这样可以更好的测试出几种方法的优劣。

第一张图片在HSI和HSV上的检索结果如图13所示。第二张图片在HSI和HSV上的检索结果如图14所示. 第三张图片在HSI和HSV上的检索结果如图15所示。


image.png

图13 第一张图片在HSI和HSV上的检索结果


image.png

图14 第二张图片在HSI和HSV上的检索结果


image.png

图15 第三张图片在HSI和HSV上的检索结果


通过上述实验不难看出,无论在哪一张实验图片上,HSI方法均有更加优良的检索效果,虽然差距不明显。


第四章 基于纹理特征的图像检索技术

纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。用户可通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像[11]。从人类的感知经验出发, 纹理特征主要有粗糙性、方向性和对比度。纹理分析方法,大致可分为两类:(1)统计方法。用于分析像木纹、沙地、草坪等细致而不规则的物体,并根据关于像素间灰度的统计性质对纹理规定特征及特征与参数间的关系。(2)结构方法。适于像布料的印刷图案或砖瓦等一类元素组成的纹理及其排列比较规则的图案, 然后根据纹理基元及其排列规则来描述纹理的结构及特征、特征与参数间的关系。

相关文章
|
机器学习/深度学习 算法 数据处理
基于内容的图像检索系统设计与实现(2)
基于内容的图像检索系统设计与实现(2)
基于内容的图像检索系统设计与实现(2)
|
5月前
|
搜索推荐 API 对象存储
|
5月前
|
分布式计算 搜索推荐 API
|
机器学习/深度学习 存储 算法
阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?
@luotuoemo飞机@TG 阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?图像搜索在现代搜索系统中扮演了重要角色,尤其在电子商务网站如阿里巴巴等,它更是一个必不可少的功能。拍立淘是阿里云国际站的一个以图搜图功能,它使用了复杂的图像搜索算法进行图片匹配和识别。以下是对该算法的简单描述。
|
机器学习/深度学习 人工智能 开发者
关于阿里云的图像搜索的创建和使用
关于阿里云的图像搜索的创建和使用
关于阿里云的图像搜索的创建和使用
|
SQL 搜索推荐 TensorFlow
【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎
“图片搜索”是作为导购类网站,比较常见的一种功能,其实现的方式也有多种。但如何做到快速、精准、简单等特性,本文给你答案。
11662 1
【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎
|
存储 前端开发 Serverless
阿里云视觉智能平台提供了人脸识别和图像搜索的API接口
阿里云视觉智能平台提供了人脸识别和图像搜索的API接口
1706 0
|
算法
阿里云图像搜索技术创新-工业五金图片搜索
阿里云图像搜索产品3月17日正式发布工业五金搜索模型,通过大规模算法模型训练,可在海量五金图片素材中快速定位到图片中五金件的同款或相似款商品原图,识别过程中可有效避免图片方位变化、光照变化、背景场景变化等情况对搜索结果的影响。以此帮助工业五金电商商城、仓库等快速找到同款、相似款。通过输入工业五金类图片,可以在海量商品库中找到同款、相似款配件,并返回对应的配件信息,提升五金类产品购物效率,帮忙更多工业五金制造和零售等企业轻松上云。
520 57
阿里云图像搜索技术创新-工业五金图片搜索
|
人工智能
阿里云产品体系分为6大分类——人工智能——分为10种模块——图像搜索
阿里云产品体系分为6大分类——人工智能——分为10种模块——图像搜索自制脑图
183 0
|
算法
阿里云图像搜索应用篇-家具家居图片搜索
阿里云图像搜索产品于2022年3月17日正式发布家具家居图像搜索模型,通过大规模算法模型训练,可在海量图片素材中快速定位到与原图中的同款或相似款家居或家具图片,识别过程中可有效避免图片翻转、局部、颜色变换、款式微调、花纹变换等情况对搜索结果的影响,针对床上用品、家具、室内设计图等多个场景可快速找到相似图片或商品。可广泛应用于室内设计图片素材网站、 家纺类电商网站、家具家居类电商网站以及各种内容导购网站等。
612 0
阿里云图像搜索应用篇-家具家居图片搜索
下一篇
DataWorks