【图像识别】告诉你机器如何看见这个世界

简介: 为大家揭秘图像识别技术原理,告诉你机器如何利用卷积神经网络进行图像识别,从而“看见”这个世界。

原标题:揭秘图像识别,告诉你机器如何“看见”这个世界
看懂一个东西对人类来说很容易,但是对机器来说却是很难的,这个时候图像识别技术就应运而生。今天我们就为大家揭秘图像识别技术原理,告诉你机器如何利用卷积神经网络进行图像识别,从而“看见”这个世界。

什么是图像识别技术

对人类来说,描述我们眼睛所看到的事物,即视觉世界,看起来太微不足道了,以至于我们根本没有意识到那正是我们时时刻刻在做的事情。在看到某件事物时,不管是汽车、大树,还是一个人,我们通常都不需要过多的思考就能立刻叫出名字。然而对于一台计算机来说,区分识别“人类对象”(比如:在小狗、椅子或是闹钟这些“非人类对象”中识别出“奶奶”这一“人类对象”)却是相当困难的。

能解决这一问题可以带来非常高的收益。图像识别技术,更宽泛地说是“计算机视觉”技术,是许多新兴技术的基础。从无人驾驶汽车到面部识别软件,从那些看似简单但十分重要的发展成果——从能够监测流水线缺陷和违规的“智能工厂”,到保险公司用来分类和处理索赔照片的自动化软件。这些新兴科技是都离不开图像识别技术的。

在接下来的内容里,我们将要探究图像识别技术所面临的问题和挑战,探寻图像识别技术原理并分析科学家是如何用一种特殊的神经网络来解决图像识别技术这一挑战的。

图像识别是一项高难度、高成本的技术

着手解决图像识别技术难题,我们让专人来对电影和音乐进行人工图像识别分类和图像识别标记,但这是一项艰巨的任务。有些任务不仅艰巨,甚至是不可能完成的。比如训练无人驾驶汽车里的导航系统,让其能够将其他车辆与正在过马路的行人区分开来;或者是每天对社交网站上用户上传的千千万万张的照片和视频进行标记、分类和筛查,这些是图像识别技术的基础。唯一能够解决这一图像识别技术难题的方法就是神经网络。

理论上我们可以用常规的神经网络来进行图像识别,但在实际操作中,从计算角度看,使用这种方法的成本非常高。举例来说,一个常规的神经网络,就算是处理一个非常小的图像,假设是3030像素的图像,仍需要900个数据输入和五十多万个参数。这样的处理加工对一个相对强大的机器来说还是可行的;但是,如果需要处理更大的图像,假设是500500像素的图像,那么机器所需的数据输入和参数数量就会大大增加,增加到难以想象的地步。

除此之外,将神经网络用于图像识别还可能会导致另一个问题——过度拟合。简单来说,过度拟合指的是图像识别系统训练的数据过于接近图像识别定制的数据模型的现象。这不仅会在大体上导致图像识别技术参数数量的增加(也就是进一步计算支出的增加),还将削弱图像识别技术在面临新数据时其他常规功能的正常发挥。

真正的解决方案——卷积神经网络

幸运的是,我们发现,只要在神经网络的结构方式上做一个小小的改变,就能使大型图像识别任务的处理更具可操作性。改造后的神经网络被称作卷积神经网络,也叫CNNs或ConvNets。

神经网络的优势之一在于它的普遍适应性。但是,就像我们刚刚看到的,神经网络的这一优势在图像识别技术上实际上是一种不利因素。而卷积神经网络能够对此作出一种有意识的权衡——为了得到一个更可行的解决方案,我们牺牲了神经网络的其他普遍性功能,设计出了一个专门用于图像识别技术的神经网络。

在任何一张图像中,接近度与相似度的关联性都是非常强的,卷积神经网络就是利用了这一原理。具体而言就是,在一张图像中的两个相邻像素,比图像中两个分开的像素更具有关联性。但是,在一个常规的神经网络中,每个像素都被连接到了单独的神经元。这样一来,计算负担自然加重了,而加重的计算负担实际上是在削弱神经网络的准确程度。

卷积神经网络通过削减许多不必要的连接来解决图像识别技术中的这一问题。运用图像识别技术中的术语来说就是,卷积神经网络按照关联程度筛选不必要的连接,进而使图像识别过程在计算上更具有可操作性。卷积神经网络有意地限制了图像识别时候的连接,让一个神经元只接受来自之前图层的小分段的输入(假设是3×3或5×5像素),避免了过重的计算负担。因此,每一个神经元只需要负责处理图像的一小部分。

卷积神经网络的内在秘密
卷积神经网络究竟是如何筛选出不必要的图像连接的呢?秘密就在于两个新添的新型图层——卷积层和汇聚层。我们接下来将会通过一个实操案例:让卷积神经网络判断照片中是否有“奶奶”这一对象,把卷积神经网络的图像识别操作进行分解,逐一描述。
第一步,卷积层
卷积层本身实际上也包含了几个步骤:

1.首先,我们会将奶奶的照片分解成一些3×3像素的、重叠着的拼接图块。

2.然后,我们把每一个图块运行于一个简单的、单层的卷积神经网络,保持权衡不变。这一操作会使我们的拼接图块变成一个图组。由于我们一开始就将原始图像分解成了小的图像(在这个案例中,我们是将其分解成了3×3像素的图像),所以,用于图像识别的卷积神经网络也是比较好操作的。

3.接下来,我们将会把这些输出值排列在图组中,用数字表示照片中各个区域的内容,数轴分别代表高度、宽度和颜色。那么,我们就得到了每一个图块的三维数值表达。(如果我们讨论的不是奶奶的照片,而是视频,那么我们就会得到一个四维的数值表达了。)

第二步,汇聚层
汇聚层是将这个三维(或是四维)图组的空间维度与采样函数结合起来,输出一个仅包含了图像中相对重要的部分的联合数组。这一联合数组不仅能使卷积神经网络计算负担最小化,还能有效避免过度拟合的问题。

最后,我们会把从汇聚层中得出的采样数组作为常规的、全方位连接的卷积神经网络来使用。通过卷积层和汇聚层,我们大幅度地缩减了输入的数量,因此,我们这时候得到的数组大小是一个正常普通网络完全能够处理的,不仅如此,这一数组还能保留原始数据中最重要的部分。这最后一步的输出结果将最终显示出系统有多少把握作出“照片中有奶奶”的判断。

以上只是对卷积神经网络工作过程的简单描述,现实中,其工作过程是更加复杂的。另外,跟我们这里的案例不同,现实中的卷积神经网络处理的内容一般包含了上百个,甚至上千个标签。

卷积神经网络的实施
重新开始建立一个卷积神经网络是一项非常耗时且昂贵的工作。不过,许多API已经实现了在没有内部计算机视觉或机器学习专家的帮助下,完成图像识别的收集工作。
谷歌云视觉是谷歌的视觉识别API,它是以开源式TensorFlow框架为基础的,采用了一个REST API。谷歌云视觉包含了一组相当全面的标签,能够检测单个的对象和人脸。
IBM沃森视觉识别技术是沃森云开发者的重要组成部分。它虽然涵盖了大量的内置类集,但实际上,它是根据你所提供的图像来进行定制类集的训练的。
Clarif.ai是图像识别服务的后起之秀,它采用了一个REST API。值得一提的是,Clarif.ai包含了大量的单元,能够根据特定的情境定制不同的图像识别算法。
上面的这些API更适用于一些普通的图像识别技术,但对于一些特殊的图像识别任务,可能还是需要对症下药,制定专门的解决方案。不过值得庆幸的是,有许多数据库可以处理卷积神经网络计算和优化方面的工作,这或多或少地减轻了数据科学家和开发人员的压力,让他们有更多精力关注于图像识别模型训练。其中,大部分的数据库,包括TensorFlow,深度学习4J和Theano,都已经得到了广泛、成功的应用。更多关于图像识别技术详见商业新知-图像识别

相关实践学习
基于函数计算实现AI推理
本场景基于函数计算建立一个TensorFlow Serverless AI推理平台。
目录
相关文章
|
1月前
|
机器学习/深度学习 边缘计算 监控
基于深度学习的图像识别技术在智能监控领域的应用
【2月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的关键力量。特别是在图像识别任务中,深度神经网络通过模仿人类大脑处理信息的方式,显著提升了对复杂场景的理解能力。本文旨在探讨基于深度学习的图像识别技术在智能监控系统中的应用,重点分析了卷积神经网络(CNN)的结构优化、训练策略以及在实际视频流分析中的效能表现。同时,讨论了该技术在实时监控数据处理、异常行为检测和多目标跟踪等方面的创新应用,并对未来发展趋势进行展望。
|
1月前
|
机器学习/深度学习 监控 算法
基于深度学习的图像识别技术在智能监控中的应用
【2月更文挑战第23天】 随着人工智能技术的迅猛发展,尤其是深度学习在图像处理领域的突破,基于深度学习的图像识别技术已经被广泛应用于智能监控系统中。本文将探讨深度学习技术如何提升监控系统的智能化水平,包括实时目标检测、异常行为识别以及人脸识别等功能。同时,文章也将分析当前所面临的挑战和潜在的解决方案,为未来智能监控系统的发展提供参考。
|
1月前
|
机器学习/深度学习 数据采集 监控
基于深度学习的图像识别技术在智能监控系统中的应用
随着人工智能技术的飞速发展,深度学习作为其核心分支之一,在图像处理和分析领域取得了显著成就。本文将探讨一种基于深度学习的图像识别技术,并分析其在智能监控系统中的应用。该技术通过构建复杂的神经网络模型,实现了对监控视频中异常行为的准确识别与实时反应。实验结果表明,与传统算法相比,该方法在准确率和处理速度上都有明显提升,有效增强了监控系统的智能化水平。
17 3
|
6月前
|
机器学习/深度学习 数据采集 算法
论题:基于深度学习的图像识别系统
论题:基于深度学习的图像识别系统
145 0
|
4月前
|
机器学习/深度学习 算法 安全
基于图像识别的面瘫检测技术
基于图像识别的面瘫检测技术
|
2天前
|
机器学习/深度学习 监控 算法
智能监控领域的革新者:基于深度学习的图像识别技术
【4月更文挑战第21天】 随着人工智能技术的迅猛发展,尤其是深度学习在计算机视觉领域的突破性进展,基于深度学习的图像识别技术已成为智能监控系统中不可或缺的核心。本文旨在探讨这一技术如何优化智能监控系统,提高安全防范效率与准确性。文中首先介绍了深度学习的基本概念及其在图像处理中的关键作用,然后详细阐述了深度学习模型如卷积神经网络(CNN)在智能监控中的应用实例和效果,最后讨论了目前所面临的挑战及未来的发展方向。通过实验数据和案例分析,本文揭示了深度学习技术在智能视频监控领域的巨大潜力。
|
2天前
|
机器学习/深度学习 监控 算法
智能监控的革新者:基于深度学习的图像识别技术
【4月更文挑战第21天】 在智能监控系统中,图像识别技术的集成是实现高效、自动化监控的关键。随着深度学习技术的飞速发展,其在图像处理和识别领域的应用已成为研究的热点。本文聚焦于深度学习在智能监控中的应用,探讨了卷积神经网络(CNN)与递归神经网络(RNN)等模型在目标检测、行为识别和异常行为分析中的运用。我们分析了现有方法的优势与局限,并提出了改进方案,旨在提高监控系统的准确性和实时性。通过对比实验,验证了所提出方法的有效性,并对未来的研究方向进行了展望。
|
1天前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别在自动驾驶系统中的应用
【4月更文挑战第22天】 在本文中,我们将深入探讨基于深度学习的图像识别技术及其在自动驾驶系统中的应用。随着深度学习技术的不断发展和进步,其在图像识别领域的应用也日益广泛。特别是在自动驾驶系统中,图像识别技术的应用对于实现车辆的自主导航和避障功能至关重要。本文将详细介绍深度学习在图像识别中的基本原理、关键技术以及在自动驾驶系统中的具体应用,并对未来发展趋势进行展望。
|
2天前
|
机器学习/深度学习 数据采集 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第21天】 本文章深入探讨了深度学习技术在自动驾驶车辆图像识别领域的应用。不同于传统的摘要方式,本文将直接点出研究的核心价值和实际应用成果。我们专注于卷积神经网络(CNN)的创新设计,其在复杂道路场景下的行人和障碍物检测中的高效表现,以及这些技术如何整合到自动驾驶系统中以增强安全性和可靠性。通过实验验证,我们的模型在公开数据集上达到了行业领先水平的准确率,并且在真实世界的测试场景中展现了卓越的泛化能力。
|
4天前
|
机器学习/深度学习 数据采集 人工智能
利用深度学习优化图像识别系统
【4月更文挑战第19天】随着人工智能的不断发展,深度学习技术在图像识别领域取得了显著成果。本文将探讨如何利用深度学习技术优化图像识别系统,提高识别准确率和效率。我们将介绍卷积神经网络(CNN)的原理,以及如何通过调整网络结构和参数来优化模型性能。此外,我们还将讨论数据预处理、增强和迁移学习等技术在图像识别中的应用。
11 1