导读:本文主要介绍了机器视觉的主要应用场景,目前绝大部分数字信息都是以图片或视频的形式存在的,若要对这些信息进行有效分析利用,则要依赖于机器视觉技术的发展,虽然目前已有的技术已经能够解决很多问题,但离解决所有问题还很遥远,因此机器视觉的应用前景还是非常广阔的。
我们热切地期盼更多的读者投身到该领域,与我们一起探索图像数据的无尽潜力。
作者:魏溪含 涂铭 张修鹏
如需转载请联系大数据(ID:hzdashuju)
▲图1-1 人工智能相关领域关系图
00 什么是机器视觉?
机器视觉是人工智能的一个重要分支,其核心是使用“机器眼”来代替人眼。机器视觉系统通过图像/视频采集装置,将采集到的图像/视频输入到视觉算法中进行计算,最终得到人类需要的信息。这里提到的视觉算法有很多种,例如,传统的图像处理方法以及近些年的深度学习方法等。
图1-2a展示了一个由彩色图像组成的、分类的数据集Cifar10,其中有飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车10个类别,且每个类别中都有1000张32×32的彩色图片。图1-2b展示的是不同算法在Cifar10数据集上的分类效果。
▲图1-2a Cifar10数据集展示
▲图1-2b 传统图像处理方法与深度学习方法在Cifar10数据集上的效果对比
从中我们可以看出,在深度学习出现以前,传统的图像处理和机器学习方法并不能很好地完成这样一个简单的分类任务,而深度学习的出现使得机器有了达到人类水平的可能。事实上,AlphaGo的出现已经证明了在一些领域,机器有了超越人类的能力。
由于深度学习技术的发展、计算能力的提升和视觉数据的增长,视觉智能计算技术在不少应用当中都取得了令人瞩目的成绩。
图像视频的识别、检测、分割、生成、超分辨、captioning、搜索等经典和新生的问题纷纷取得了不小的突破。这些技术正广泛应用于城市治理、金融、工业、互联网等领域。
以下将以9个场景为例,对一些常见的应用场景进行介绍,让读者直观地理解机器视觉都能解决哪些问题。
01 人脸识别
人脸识别(Face Recognition)是基于人的面部特征信息进行身份识别的一种生物识别技术。它通过采集含有人脸的图片或视频流,并在图片中自动检测和跟踪人脸,进而对检测到的人脸进行面部识别。人脸识别可提供图像或视频中的人脸检测定位、人脸属性识别、人脸比对、活体检测等功能。
人脸识别是机器视觉最成熟、最热门的领域,近几年,人脸识别已经逐步超过指纹识别成为生物识别的主导技术。人脸识别分为4个处理过程——人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别,其主要应用及说明如下:
人脸支付:将人脸与用户的支付渠道绑定,支付阶段即可刷脸付款,无须出示银行卡、手机等,提高支付效率(如图1-3)
人脸开卡:客户在银行等部门开卡时,可通过身份证和人脸识别进行身份校验,以防止借用身份证进行开卡
人脸登录:用户注册阶段录入人脸图片,在安全性要求较高的场景中启动人脸登录验证,以提高安全性
VIP人脸识别:通过人脸识别自动确定客户的身份,提供差异化服务
人脸签到:活动开始前录入人脸图片,活动当天即可通过刷脸进行签到,提高签到效率
人脸考勤:利用高精度的人脸识别、比对能力,搭建考勤系统,提升考勤效率,提高防作弊能力(如图1-3所示)
人脸闸机:在机场、铁路、海关等场合利用人脸识别确定乘客身份
会员识别:会员到店无须出示会员凭证,只要刷脸即可完成会员身份验证,实现无卡化身份确认和人流统计
安防监控:在银行、机场、商场、市场等人流密集的公共场所对人群进行监控,实现人流自动统计、特定人物的自动识别和追踪
相册分类:通过人脸检测,自动识别照片库中的人物角色,并进行分类管理,提升产品的用户体验
人脸美颜:基于人脸检测和关键点识别,实现人脸的特效美颜、特效相机、贴片等互动娱乐功能
▲图1-3 人脸识别应用场景
由于人脸识别产业的需求旺盛,众多大型科技公司和人工智能创业公司均有涉足该领域,目前该技术已经处于大规模商用阶段,未来3~5年仍将继续保持高速增长。
02 视频监控分析
视频监控分析是利用机器视觉技术对视频中的特定内容信息进行快速检索、查询、分析的技术。由于摄像头的广泛应用,由其产生的视频数据已是一个天文数字,这些数据蕴藏的价值巨大,靠人工根本无法统计,而机器视觉技术的逐步成熟,使得视频分析成为可能。
通过这项技术,公安部门可以在海量的监控视频中搜寻到罪犯;在拥有大量流动人群的交通领域,该技术也被广泛应用于人群分析、防控预警等。
城市治理是视频监控分析应用价值最高的领域之一,以下列举了一些典型的应用场景及说明:
交通拥堵治理:视频分析技术可用于进行车辆检测、车型识别、车牌识别、非机动车检测、行人检测、红绿灯识别、车辆排队长度、车辆通行速度、拥堵程度判断分析。
识别、分析这些信息可用于实现交通态势预测和红绿灯优化配置,从而缓解交通拥堵指数,加快车辆通行速度,提升城市运行效率
异常事件检测与轨迹跟踪:视频分析技术可用于检测拥堵、逆行、违法停车、缓行、抛锚、事故、快速路上的行人和非机动车、路面抛洒物、路口行人大量聚集等异常交通事件的发生(如图1-4)。
根据这些信息,一方面可以实时报警,由交警介入处理;另一方面,视频索引可以实现高效的以图搜图查询,通过车辆轨迹跟踪保留证据,实现非现场执法,可以节省大量警力,并提升交通管理的效率
平安城市情报搜集分析:视频分析技术可用于视频中动态人脸和基础人脸的实时比对,人群密度和不同方向人群流量的分析,智能研判、自动预警重点人员、重点车辆、重点物品在重点时间段出现在重点区域的有效线索,实现基于视频数据的案件串并与动态人员管控,为嫌疑人建立地理画像模型,提高主动防御、精确布控的水平,从海量视频中追踪罪犯成为可能
厂区安全管理:视频分析技术可用于对厂区人员是否戴安全帽,是否在安全区域作业等安全管理问题进行分析,此技术还可应用于其他有安全管控需求的区域,如矿山安全管理、仓库管理等
门店客流分析:在商场或门店部署摄像装置,利用视频分析技术,可实现识别顾客身份、分析顾客行为、指导导购人员进行精准推荐、监控顾客异常行为等功能
▲图1-4 交通异常事件监测
视频/监控领域盈利空间广阔,商业模式多种多样,将视觉分析技术应用于视频监控领域正在形成一种趋势,目前已率先应用于交通、安防、零售、社区、楼宇、校园、工地等场合。
03 工业瑕疵检测
机器视觉技术可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛应用于工业瑕疵诊断、工况监视和质量控制等领域。
工业瑕疵诊断是指利用传感器(如工业相机、X光等)将工业产品内外部的瑕疵进行成像,通过机器学习技术对这些瑕疵图片进行识别(如图1-5),确定瑕疵的种类、位置,甚至对瑕疵产生的原因进行分析的一项技术。目前,工业瑕疵诊断已成为机器视觉的一个非常重要的应用领域。
▲图1-5 工业瑕疵诊断应用场景
随着制造业向智能化、无人化方向发展,以及人工成本的逐年上升,广泛存在于制造业的产品外观检测迫切需要通过机器视觉技术替代人工外检人员。
一方面图像外检技术可以运用到一些危险环境和人工视觉难以满足要求的场合;另一方面,更重要的是,人工检测面临检测速度慢、检测准确率不稳定(随着人眼检测时间的增加,检测准确率明显下降)、不同质检员的检测水平不一致的情况,同时,质检员的责任心、状态也会影响检测水平,这些都会直接影响产品的品质。
而图像外检技术可以大大提高生产效率、速度和生产的自动化程度,降低人工成本。
04 图片识别分析
这里所说的图片识别是指人脸识别之外的静态图片识别,图片识别可应用于多种场景,目前应用比较多的是以图搜图、物体/场景识别、车型识别、人物属性、服装、时尚分析、鉴黄、货架扫描识别、农作物病虫害识别等。
这里列举一个图像搜索的例子:拍立淘。拍立淘是手机淘宝的一个应用,主要通过图片来代替文字进行搜索,以帮助用户搜索无法用简单文字描述的需求。
比如,你看到一条裙子很好看,但又很难用简单的语言文字来描述这条裙子的样子,那么这个时候就可以使用拍立淘,通过图片轻松地在淘宝上搜出同款裙子,或者是与它非常接近的款式,如图1-6所示。
▲图1-6 图片识别应用效果
05 自动驾驶/驾驶辅助
自动驾驶汽车是一种通过计算机实现无人驾驶的智能汽车,它依靠人工智能、机器视觉、雷达、监控装置和全球定位系统协同合作,让计算机可以在没有任何人类主动操作的情况下,自动安全地操作机动车辆(如图1-7)。机器视觉的快速发展促进了自动驾驶技术的成熟,使无人驾驶在未来成为可能。
▲图1-7 自动驾驶汽车应用场景
自动驾驶技术链比较长,主要包含感知阶段、规划阶段和控制阶段三个部分。机器视觉技术主要应用在无人驾驶的感知阶段,其基本原理可概括如下。
使用机器视觉获取场景中的深度信息,以帮助进行后续的图像语义理解,在自动驾驶中帮助探索可行驶区域和目标障碍物。
通过视频预估每一个像素的运动方向和运动速度。
对物体进行检测与追踪。在无人驾驶中,检测与追踪的目标主要是各种车辆、行人、非机动车。
对于整个场景的理解。最重要的有两点,第一是道路线检测,其次是在道路线检测下更进一步,即将场景中的每一个像素都打成标签,这也称为场景分割或场景解析。
同步地图构建和定位技术。
06 三维图像视觉
三维图像视觉主要是对三维物体进行识别,其主要应用于三维机器视觉、双目立体视觉、三维重建、三维扫描、三维测绘、三维视觉测量、工业仿真等领域。三维信息相比二维信息,能够更全面、真实地反映客观物体,提供更大的信息量。
近年来,三维图像视觉已经成为计算机视觉领域的重要课题,在虚拟现实、文物保护、机械加工、影视特技制作、计算机仿真、服装设计、科研、医学诊断、工程设计、刑事侦查现场痕迹分析、自动在线检测、质量控制、机器人及许多生产过程中得到越来越广泛的应用。
07 医疗影像诊断
医疗数据中有90%以上的数据来自于医疗影像。医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生做出判断(如图1-8),提升医生的诊断效率。目前,医疗影像诊断主要应用于如下场景中:
肿瘤探测:通过图像技术,医疗影像诊断可进行如皮肤色素瘤、乳腺癌、肺部癌变的早期识别
肿瘤发展追踪:机器视觉技术可以根据器官组织的分布,预测出肿瘤扩散到不同部位的概率,并能从图片中获取癌变组织的形状、位置、浓度等信息
血液量化与可视化:通过核磁共振图像,医疗影像诊断可以更有效地再现心脏内部血液的流量变化,并可探测心脏是否发生病变
病理解读:不同医生对于同一张图片的理解可能会有不同,机器视觉技术可用于解读图片,并向医生提供较为全面的报告,使医生能够了解到多种不同的病理可能性
糖尿病视网膜病变检测:由糖尿病导致的视网膜病变是失明的一大主因,而早期治疗可以有效减缓这一症状。机器视觉技术可以辨认出患者是否处于糖尿病视网膜病变早期,并能根据图片像素判断病情的发展程度
图1-8是肝脏及结节分割技术的影像分析结果。
▲图1-8 肝脏及结节分割技术,从左至右:CT原始影像、真实结果、算法结果
08 文字识别
计算机文字识别,俗称光学字符识别(Optical Character Recognition),是利用光学扫描技术将票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。该技术可应用于如下场景中:
卡证类识别:如身份证、名片、行驶证、驾驶证、银行卡、营业执照、户口本、签证、房产证等证件类文字识别
票据类识别:定额发票、火车票、飞机票、出租车票等票据类文字识别
出版类识别:书籍、报刊等印刷物的识别
实体标识识别:道路指示牌识别(如图1-9)、广告牌识别等
▲图1-9 文字识别技术的应用场景
09 图像/视频的生成及设计
人工智能技术不仅可以对现有的图片、视频进行分析、编辑,还可以进行再创造。机器视觉技术可以快速、批量、自动化地进行图片设计,因此其可为企业大幅度节省设计人力成本。
人工智能可以从艺术作品中抽象出视觉模式,然后将这些模式应用于具有该作品的标志性特征的摄影图像的幻想再现。这些算法还可以将任何粗糙的涂鸦转换成令人印象深刻的绘画,看起来就像是由描绘真实世界模型的专家级人类艺术家创建的一样。
人工智能技术可以手绘人脸的草图,并通过算法将其转化为逼真的图像;还可以指导计算机渲染任何图像,使其看起来好像是由特定人类艺术家以特定风格创作的一样;甚至可以对任何图像、图案图形和其他不在源头中的细节化腐朽为神奇。
关于作者:魏溪含 ,爱丁堡大学人工智能硕士,阿里巴巴达摩院算法专家,在计算机视觉、大数据领域有8年以上的算法架构和研发经验。
涂铭,阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。
张修鹏,毕业于中南大学,阿里巴巴技术发展专家,长期从事云计算、大数据、人工智能与物联网技术的商业化应用,在阿里巴巴首次将图像识别技术引入工业,并推动图像识别产品化、平台化。
本文摘编自《深度学习与图像识别:原理与实践》,经出版方授权发布。
文章来源:微信公众号 大数据