开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):图像分类基础(二)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19274
图像分类基础(二)
三、图像分类遇到的挑战
因此,接下来我们将详细研究图像分类可能面临的挑战。尽管在图像分类竞赛中,准确率已经接近极限,但在实际工程应用中仍然存在许多问题,面临诸多挑战。首先是类别不均衡,这与数据相关,尤其是对于多类别情况的数据。如何定义标签以及处理标签不平衡的数据是一个复杂而具有挑战性的问题。通常需要领域专业知识,而不仅仅是通过拍照来解决。在收集数据和进行分类之前,可能需要进行预估和分析。
此外,图像分类可能会面临数据稀缺的问题。有时候,数据采集非常困难,不是随时都能够获取的。举例来说,如果要对罕见的海洋生物进行分类,可能很难找到足够的样本数据。有些生物可能只在一年中的短时间内出现,并且它们会生长和变化,需要捕捉这些变化,数据集的积累也需要一定的时间。
另一个挑战是每个分类需要足够规模的数据集。有时候,当数据不足时,训练出的模型效果会很差。如果只有几十张图片,而不是数百甚至上千张图片,那么分类的准确性可能会受到严重影响。收集大量数据的成本也可能非常高,但有时问题不仅仅是成本,还包括等待数据积累的时间。
最后,存在巨大的类内差异。在某些情况下,即使进行了标签和分类,类内的差异也可能非常大。这可能需要进一步细化分类。此外,在实际应用环境中,特别是视觉应用,环境因素对算法的影响非常大,如光线、角度和拍摄条件等都可能会影响分类性能。因此,在训练模型时需要考虑这些复杂的实际环境因素。
此外,稍微偏差可能会导致实际应用效果远远不如实验室环境中的效果,这可能由于不正确的场地设置或光线不稳定等原因引起。在实际工程中,各种环境因素都可能影响分类性能。
四、图像分类的常用数据集与网络
让我们一起了解图像分类中常用的数据集和网络。在图像分类研究中,通常需要使用数据集来进行实验和研究,因为研究需要可用的素材。一个著名的数据集是CIFAR-10,这是由两位知名的人工智能研究者整理的小型图像数据集,用于识别各种常见物体。它包含了六万张32 * 32像素的彩色图像。虽然这是一个相对较小的数据集,但质量还是相当不错的。另一个常用的数据集是MNIST,它包含六万张手写数字图像,其中训练集有五万张,测试集有一万张。
这两个数据集的特点是每个类别的样本数量相等,每个类别有5000张图像。这些类别包括飞机、汽车、狗、马、船、卡车等,这些都是现实世界中的真实物体照片,但数据集中的噪音和变化非常大,增加了分类的难度。此外,这些类别是互斥的,同一张图片不会同时属于多个类别。
此外,还存在许多类似的数据集,它们是研究和实验的重要资源。这些数据集可用于评估算法性能并进行改进方法的比较。
在图像分类领域,有两种常用的神经网络模型,首先是LeNet,它是最早应用于图像分类的卷积神经网络之一。在1998年,LeNet首次成功应用于手写数字识别任务,并取得了显著的成就。LeNet使用卷积层和汇聚层来提取图像特征,总共包括三个卷积层和两个全连接层。当时,LeNet的参数超过了六万个,连接数量超过了30万个,这在当时被认为是非常复杂的模型。
AlexNet,AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中;成功使用ReLU作为CNN的数活的数,并验证其效果优异;训练时使用数据增强和Dropout随机忽略一部分神经元,以避免模型过拟合,提升泛化能力;在CNN中使用重督的最大池化,提升了特征的丰富性;提出了LRN层,增强了模型的泛化能力。例如数据增强和随机丢弃一部分神经元以防止过拟合,以及使用最大池化代替以前常用的平均池化。另外,引入了局部神经元活动的竞争机制,通过增强响应较大的神经元并削弱其他神经元的响应,从而提高模型的表征能力。
五、图像分类的典型应用
在日常生活中,我们经常会接触到与图像分类相关的应用。例如,智能手机现在具备了强大的图像分类功能。此外,云存储服务也可以帮助我们自动分类存储文件,使文件更有组织性。另外,图片搜索引擎也是一种常见的图像分类应用。
让我们更深入地了解一些典型的图像分类应用。首先,是图像搜索引擎。利用图像分类技术,这些搜索引擎允许用户通过上传图片来进行搜索,而不仅仅是通过文字描述。系统会返回与上传图片相似或相关的结果,这通过对图片资源进行比对和匹配实现。搜索结果可能包括类似的图片,或者直接对上传的图片进行分类,例如将一张照片识别为玫瑰花并将其归类到相关的类别中,然后将结果反馈给用户。这种功能在现代搜索引擎中变得越来越常见,尽管很多人可能并不特别关注它。
另一个有趣的应用是图像识别APP。这些应用允许用户拍照,然后使用图像分类技术来识别拍摄的物体是什么,它属于哪个类别,以及具有哪些特征等等。同样地,淘宝等电商应用也提供了拍照搜索功能。您可以上传商品的图片,然后应用程序会找到相同或类似的商品,并为您提供购买链接。这对于那些不知道具体商品名称但知道外观的人来说非常有用。
图像分类在垃圾分类领域的应用是城市管理中的一项重要挑战。传统的垃圾分类投放方式存在乱丢垃圾的问题,但可以通过将传统的垃圾分类投放点进行智能化改造,使用摄像头来解决这个问题。华为提出的智能产品采用语音控制,它可以在垃圾分类点进行人工智能检测,主要功能包括检测未密封的垃圾袋。这项技术具有高准确性和高效率,检测率已达到95%。当垃圾被放置在投放点时,摄像头会扫描并拍照,然后判断垃圾是否可回收,以及垃圾的种类。这一智能垃圾识别技术的应用是非常有前景的。
本节回顾
通过本节的学习,我们学到了:
1、图像分类的定义和类别
图像分类的核心是从给定的分类集合中给图像分配一个标签
类别:跨物种语义级别的图像分类、子类细粒度图像分类和多标签图像分类
2、图像分类遇到的挑战
类别不均衡、数据集小、巨大的类内差异和实际应用环境复杂等
3、图像分类常用数据集和网络
CIFAR-10:一个用于识别普适物体的小型图像数据集
常用网络:LeNet、AlexNet等
4、图像分类的应用
图片搜索引擎、智能环卫等