深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)

简介: 深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)

摘要:机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作[1]。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对图像等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,其在语音和图像识别方面取得的效果,远远超过先前相关技术[1]。该综述主要内容即是关于深度学习在机器视觉应用领域的研究。


1引言

由文献[2]可知在深度学习算法出来之前,对于视觉算法来说,大致可以分为以下5个步骤:特征感知、图像预处理、特征提取、特征筛选、推理预测与识别。早期的机器学习中,占优势的统计机器学习群体中,对特征是不大关心的。计算机视觉可以说是机器学习在视觉领域的应用,所以计算机视觉在采用这些机器学习方法的时候,不得不自行设计前4个部分,而这是一个艰难的任务。传统的计算机识别方法把特征提取和分类器设计分开来做,然后在应用时再合在一起,比如如果输入是一个人脸图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。因为手工设计特征需要大量的经验,需要设计者对该领域和数据特别了解,设计出的特征还需要大量的调试工作。而另一个难点在于,设计者不只需要手工设计特征,还需要在此基础上有一个比较合适的分类器算法,同时设计特征并且选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。

如果不手动设计特征,不挑选分类器,有没有别的方案呢?能否同时学习特征和选择分类器呢?即输入某一个模型的时候,输入图片,输出其标签。比如输入一个员工的人脸,输出的标签就是一个1000维的向量(假设要在1000个人里识别),其中对应员工的向量是1,其他的位置是0。这种设定符合人类脑科学的研究成果。AlexNet由多伦多大学几个科学家开发,在ImageNet比赛上做到了非常好的效果。当时AlexNet识别效果超过了所有浅层的方法。此后,大家认识到深度学习的时代终于来了,并有人用它做其它的应用,同时也有些人开始开发新的网络结构。机器视觉中比较成功的深度学习的应用,包括复杂环境下的人员检测、视觉问答和物体检测等。


2基于深度学习的复杂环境人员检测方法研究

复杂环境指的是目标检测中图像分辨率不高、光照影响、检测区域复杂、干扰严重的环境。复杂的检测环境给目标检测带来了极大的干扰,国内外研究者提出多种方法应对复杂环境对目标检测的干扰,但是由于应用场景不同,解决复杂环境干扰问题的方法也各不相同。在工业复杂生产环境下,作业人员的安全问题至关重要。大多数工业企业采用人眼观察视频的方式对作业人员位置进行判断,这种方式长时间会使管理者出现疲劳问题,效率非常低下,遇到安全问题也不能进行及时的处理。因此采用图像处理以及深度学习技术使计算机代替人眼去检测和定位人员,不仅可以提高检测的准确率,同时也可以减轻监管人员的工作负担。

由文献[3]知在工业环境下进行图像的采集并进行人员多种姿态、状态的数量统计,同时将数据集中的人员进行标注,形成算法训练对应格式数据集;其次针对工业复杂环境下人员难以检测的问题,分别使用HOG+SVM人员检测算法、Faster_RCNN人员检测算法以及Centernet人员检测算法对本文人员数据集进行训练测试和分析,得出Centernet人员检测算法在检测精度和速度上均优于其他算法的结论;最后针对于Centernet人员检测算法在实际应用中对于大面积人员遮挡无法检测到的问题,提出基于背景差法的改进Centernet人员检测算法,利用背景减除法快速确定人员大致位置的特点,调整Centernet得分阈值的大小,使得分较少的大面积遮挡人员也可以正确被检出,提高Centernet人员检测算法在应用中检测的平均精度。

YOLO系列初代算法YOLOv1是由Joseph Redmon在2016年CVPR上首次发表,自此YOLO系列因其高效的性能而被广泛应用到各类实时检测任务中。在初代YOLO中,作者将图像分割为77的共计49个小单元格,图片经过YOLOv1网络处理之后将会输出一个7730的张量,其中77是指将图片分割成7*7的网格,30是指预测框的宽高,中心点坐标,置信度以及可预测的20个物体种类,通过这样的张量拼接方式使得YOLO可以同时完成对目标位置和种类的预测。此后的一系列YOLO算法基于这种思想不断在精度,速度和可识别物体种类方面进行了改进,YOLO9000[4]将可识别物体的种类从20种增加到了9000种。由文献[5]针知对于复杂环境对目标检测的干扰问题,通过区域划分解决检测区域复杂问题,通过改进暗通道优先图像处理策略,解决图像分辨率、光照等对目标检测的影响问题,结合SSDSN提出复杂环境下的人员检测方法,通过对比Faster R-CNN、SSD、YOLOV2、YOLOV3及SSDSN五种算法的检测结果,证明了SSDSN在复杂环境下的检测能力。


3基于深度学习的视觉问答系统研究

2015年,学术界提出的自由形式和开放式视觉问答VQA任务,逐步成为人工智能研究的热门方向。VQA系统将图像与自由形式和开放式的自然语言表述问题作为输入,产生的自然语言表述答案作为输出。图像处理的相关技术为视觉问答提供一定的支持和借鉴,比如图像标记与图像说明。和视觉问答相比,这些任务虽然需要视觉和语义知识,但是说明通常不具有针对性。相比之下,视觉问答中的问题往往需要详细的有针对性的图像信息,所以和一般的图像标记与图像说明不一样。视觉问答(VQA)是计算机视觉、自然语言处理和人工智能交叉的新兴交叉学科研究课题。给定一个开放式问题和一个参考图像,视觉问答(VQA)的任务是预测与图像一致的问题的答案。VQA需要对图像有很深的理解,但是评估起来要容易得多。它也更加关注人工智能,即产生视觉问题答案所需的推理过程[6]。

在视觉问答中,计算机视觉技术用来理解图像,NLP技术用来理解问题,两者必须结合起来才能有效地回答图像情境中的问题。这相当具有挑战性,因为传统上这两个领域是使用不同的方法和模型来解决各自任务的。给定一张图片,如果想要机器以自然语言来回答关于这张图片的某一个问题,那么,机器对图片的内容、问题的含义和意图以及相关的常识都需要有一定的理解。在实际应用中,针对信息中大量的图片,采用视觉问答系统就可以使用机器来采集相应有用的信息,减少了人的工作量。近年来,由于图形的强大表现力,用机器学习分析图形的研究越来越受到关注,图神经网络是基于深度学习的方法,在图域上运行卷积神经网络。由于其令人信服的性能和高可解释性,GNN最近已成为一种广泛应用的图形分析方法,其侧重于分类、链路预测和聚类。在视觉问答中,图像中的目标可视为图的节点,节点间基于问题的联系可视为边。综上,在联合嵌入模型的基础上结合图卷积神经网络,加强图像目标和问题间的联系,通过图网络强大的分类能力,以提高视觉问答的准确率[7]。


4基于深度学习的物体检测系统研究

人类的视觉系统能够迅速地、有选择地从视觉场景中检测出感兴趣的目标或者具有显著特征的物体,并根据更高层次的视觉任务目的对它们进行处理和理解,从而实现相应的行为或决策。将人类这种选择性视觉注意机制引入到计算机视觉的信息处理中,可以有效地减少视觉计算所需处理的数据量、加速整个处理过程,并进一步方便更高层次视觉任务的处理,因而该方面的研究受到学术界的广泛关注并应用到计算机视觉的各个领域。

人工神经网络被认为是一种以简化的方式模仿人类大脑并行计算机制的数学模型,人们同样试图建立一些计算模型来模仿人类视觉系统注意机制,以实现选择性地专注于一些与视觉任务目的相关的事物而忽略其他事物,从而可以利用有限的计算资源来快速完成视觉场景的处理和理解等过程[8]。

基于深度学习的显著性物体检测方法,需要对模型进行训练,因此需要大量的样本图片及其对应的标签。虽然在人工标注时耗费大量的时间,以及在网络训练和和参时也花费一定的时间,但是一旦将网络模型训练好,可以适用于较为复杂场景下的显著性物体检测,其性能明显优于传统的显著性物体检测方法。目前,大多数的基于深度学习的显著性物体检测方法都是采取全监督的方式,即需要大量的样本进行训练;按照其网络结构,一般可以将这些方法分为基于传统卷积神经网络的方法和基于完全卷积神经网络的方法。虽然基于完全卷积神经网络的显著性检测方法相比传统卷积神经网络的显著性检测方法能更好地保存空间信息,但经过卷积、下采样和上采样后,最终的特征图丧失了显著物体的一些细节,在一定程度上影响了检测的精度。因此,在此基础上,基于复杂的特征融合网络结构被提出,如将底层特征和高层特征征行连接,获得更加丰富的语义信息;在文献[9]中,作者加到了注意力机制,来进行更加精确的显著目标检测,从而克服之前的网络模型的缺点,提高模型的检测精度。


5总结与展望

对于人员检测,由于实际监控场景的复杂性,算法在人员检测的过程中不可避免地会存在一些误报,以后可以从主干网络入手,对于人员的特征进行更加精准的提取,从而进一步提升算法的检测性能。另一方面,由于存在数据较少、目标标注引入干扰背景的问题, DE-YOLO检测的精确度提升会遇到瓶颈,同时网络结构如何进一步的压缩和裁剪也是一个值得研究的方向, 后期的工作将针对这些问题进入深入的研究。

对于智能视觉问答系统,作为需要视觉理解与推理能力的、融合计算机视觉以及自然语言处理的视觉问答VQA,它的进步在计算机视觉的发展和自然语言处理的能力提高的基础上还有着更高的要求,即对图像的理解——在图像处理的基础能力,如识别、检测等的基础上还要学习知识与推理的能力。需要提高模型的精度,提高回答问题的粒度。然而,这条路还有很长的距离要走,一个能够真正理解图像、学习到知识和推理能力的VQA模型才是最终目标。

对于物体检测,由文献[8]知显著性物体检测仍然是一个非常具有挑战性的工作,具有十分重要的研究价值。目前,显著性物体检测的首选方法是基于深度学习的方法,具有较高的检测精度,可适应于复杂场景下的物体检测。未来,显著性物体检测将更加关注网络模型的大小、检测的精度以及实时性方面,作为视觉任务的前序的预处理,为各种实际的应用任务服务。

基于深度学习的机器视觉和物联网技术近年来受到研究人员和商业领域的广泛关注,这两项技术对我们的生活、城市和世界都产生了积极的影响。物联网技术和深度学习构成了一个数据生产者-消费者链,其中物联网技术生成由深度学习模型分析的原始数据,深度学习模型产生高层次的分析,反馈给物联网系统,以微调和改进服务。


参考文献:

[1]孙志军;薛磊;许阳明;王正;深度学习研究综述[J];计算机应用研究;2012年08期

[2]张驰;关于深度学习与计算机视觉;雷锋网;2016年5月

[3]滕悦;工业复杂环境下人员监测系统研究与设计;辽宁科技大学

[4]REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6517-6525

[5]马金涛;基于深度学习的复杂环境目标检测方法研究;哈尔滨理工大学;2021年第09期

[6]葛梦颖;孙宝山;基于深度学习的视觉问答系统;天津工业大学;2096-4706(2019)11-0011-04

[7]龚安;丁磊;姚鑫杰;基于图卷积网络的视觉问答研究;中国石油大学(华东); 1672-9722.2022.01.026

[8]蒋峰岭;孔斌;钱晶;王灿;杨静;显著性物体检测研究综述;1000-8829(2021)01-0001-15

[9]CHENSH,WANGB,TANXL,etal.Embeddingattentionandresidualnetworkforaccuratesalientobjectdetection[J].IEEETransactionsonCybernetics,2020,50(5):2050-2062.


相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
相关文章
|
17天前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
77 5
|
9天前
|
机器学习/深度学习 网络架构 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过研究卷积神经网络(CNN)的结构和原理,本文展示了深度学习如何提高图像识别的准确性和效率。同时,本文也讨论了数据不平衡、过拟合、计算资源限制等问题,并提出了相应的解决策略。
56 19
|
9天前
|
机器学习/深度学习 传感器 人工智能
探索深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过介绍卷积神经网络(CNN)的基本原理和架构设计,阐述了深度学习如何有效地从图像数据中提取特征,并在多个领域实现突破性进展。同时,文章也指出了训练深度模型时常见的过拟合问题、数据不平衡以及计算资源需求高等挑战,并提出了相应的解决策略。
53 7
|
20天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的革命性应用####
本文不采用传统摘要形式,直接以一段引人入胜的事实开头:想象一下,一台机器能够比人类更快速、更准确地识别出图片中的对象,这不再是科幻电影的情节,而是深度学习技术在图像识别领域带来的现实变革。通过构建复杂的神经网络模型,特别是卷积神经网络(CNN),计算机能够从海量数据中学习到丰富的视觉特征,从而实现对图像内容的高效理解和分类。本文将深入探讨深度学习如何改变图像识别的游戏规则,以及这一技术背后的原理、关键挑战与未来趋势。 ####
43 1
|
20天前
|
机器学习/深度学习 存储 人工智能
探索深度学习的奥秘:从理论到实践的技术感悟
本文深入探讨了深度学习技术的核心原理、发展历程以及在实际应用中的体验与挑战。不同于常规摘要,本文旨在通过作者个人的技术实践经历,为读者揭示深度学习领域的复杂性与魅力,同时提供一些实用的技术见解和解决策略。
29 0
|
20天前
|
机器学习/深度学习
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,并分析了其面临的主要挑战。通过综述深度学习模型的基本原理、图像识别任务的特点以及当前的研究进展,本文旨在为读者提供一个关于深度学习在图像识别中应用的全面视角。
29 0
|
1月前
|
存储 安全 物联网
政府在推动物联网技术标准和规范的统一方面可以发挥哪些作用?
政府在推动物联网技术标准和规范的统一方面可以发挥哪些作用?
103 50
|
1月前
|
安全 物联网 物联网安全
制定统一的物联网技术标准和规范的难点有哪些?
制定统一的物联网技术标准和规范的难点有哪些?
58 2
|
1月前
|
供应链 物联网 区块链
探索未来技术潮流:区块链、物联网、虚拟现实的融合与创新
【10月更文挑战第41天】随着科技的不断进步,新技术如区块链、物联网、虚拟现实等正在逐步渗透到我们的日常生活中。本文将深入探讨这些技术的发展趋势和应用场景,以及它们如何相互融合,共同推动社会的进步。我们将通过具体的代码示例,展示这些技术在实际应用中的潜力和价值。无论你是科技爱好者,还是对未来充满好奇的探索者,这篇文章都将为你打开一扇通往未来的窗口。
101 56
|
20天前
|
存储 安全 物联网
未来已来:区块链技术在物联网与虚拟现实中的应用
随着科技的不断进步,新兴技术如区块链、物联网(IoT)和虚拟现实(VR)正在逐渐改变我们的生活和工作方式。本文将探讨这些技术的发展趋势和应用场景,以及它们如何相互融合,为我们带来更便捷、安全和沉浸式的体验。

热门文章

最新文章

相关产品

  • 物联网平台