图像分类基础(二)

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 图像分类基础(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):图像分类基础(二)

课程地址:https://edu.aliyun.com/course/3112108/lesson/19274

 

图像分类基础(二)

三、图像分类遇到的挑战


图片570.png

因此,接下来我们将详细研究图像分类可能面临的挑战。尽管在图像分类竞赛中,准确率已经接近极限,但在实际工程应用中仍然存在许多问题,面临诸多挑战。首先是类别不均衡,这与数据相关,尤其是对于多类别情况的数据。如何定义标签以及处理标签不平衡的数据是一个复杂而具有挑战性的问题。通常需要领域专业知识,而不仅仅是通过拍照来解决。在收集数据和进行分类之前,可能需要进行预估和分析。


此外,图像分类可能会面临数据稀缺的问题。有时候,数据采集非常困难,不是随时都能够获取的。举例来说,如果要对罕见的海洋生物进行分类,可能很难找到足够的样本数据。有些生物可能只在一年中的短时间内出现,并且它们会生长和变化,需要捕捉这些变化,数据集的积累也需要一定的时间。


另一个挑战是每个分类需要足够规模的数据集。有时候,当数据不足时,训练出的模型效果会很差。如果只有几十张图片,而不是数百甚至上千张图片,那么分类的准确性可能会受到严重影响。收集大量数据的成本也可能非常高,但有时问题不仅仅是成本,还包括等待数据积累的时间。

最后,存在巨大的类内差异。在某些情况下,即使进行了标签和分类,类内的差异也可能非常大。这可能需要进一步细化分类。此外,在实际应用环境中,特别是视觉应用,环境因素对算法的影响非常大,如光线、角度和拍摄条件等都可能会影响分类性能。因此,在训练模型时需要考虑这些复杂的实际环境因素。


此外,稍微偏差可能会导致实际应用效果远远不如实验室环境中的效果,这可能由于不正确的场地设置或光线不稳定等原因引起。在实际工程中,各种环境因素都可能影响分类性能。

 

四、图像分类的常用数据集与网络


让我们一起了解图像分类中常用的数据集和网络。在图像分类研究中,通常需要使用数据集来进行实验和研究,因为研究需要可用的素材。一个著名的数据集是CIFAR-10,这是由两位知名的人工智能研究者整理的小型图像数据集,用于识别各种常见物体。它包含了六万张32 * 32像素的彩色图像。虽然这是一个相对较小的数据集,但质量还是相当不错的。另一个常用的数据集是MNIST,它包含六万张手写数字图像,其中训练集有五万张,测试集有一万张。


这两个数据集的特点是每个类别的样本数量相等,每个类别有5000张图像。这些类别包括飞机、汽车、狗、马、船、卡车等,这些都是现实世界中的真实物体照片,但数据集中的噪音和变化非常大,增加了分类的难度。此外,这些类别是互斥的,同一张图片不会同时属于多个类别。

此外,还存在许多类似的数据集,它们是研究和实验的重要资源。这些数据集可用于评估算法性能并进行改进方法的比较。

图片571.png
在图像分类领域,有两种常用的神经网络模型,首先是LeNet,它是最早应用于图像分类的卷积神经网络之一。在1998年,LeNet首次成功应用于手写数字识别任务,并取得了显著的成就。LeNet使用卷积层和汇聚层来提取图像特征,总共包括三个卷积层和两个全连接层。当时,LeNet的参数超过了六万个,连接数量超过了30万个,这在当时被认为是非常复杂的模型。


AlexNetAlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中成功使用ReLU作为CNN的数活的数,并验证其效果优异;训练时使用数据增强和Dropout随机忽略一部分神经元,以避免模型过拟合,提升泛化能力;在CNN中使用重督的最大池化,提升了特征的丰富性提出了LRN层,增强了模型的泛化能力。例如数据增强和随机丢弃一部分神经元以防止过拟合,以及使用最大池化代替以前常用的平均池化。另外,引入了局部神经元活动的竞争机制,通过增强响应较大的神经元并削弱其他神经元的响应,从而提高模型的表征能力。

 

五、图像分类的典型应用


图片572.png

在日常生活中,我们经常会接触到与图像分类相关的应用。例如,智能手机现在具备了强大的图像分类功能。此外,云存储服务也可以帮助我们自动分类存储文件,使文件更有组织性。另外,图片搜索引擎也是一种常见的图像分类应用。


让我们更深入地了解一些典型的图像分类应用。首先,是图像搜索引擎。利用图像分类技术,这些搜索引擎允许用户通过上传图片来进行搜索,而不仅仅是通过文字描述。系统会返回与上传图片相似或相关的结果,这通过对图片资源进行比对和匹配实现。搜索结果可能包括类似的图片,或者直接对上传的图片进行分类,例如将一张照片识别为玫瑰花并将其归类到相关的类别中,然后将结果反馈给用户。这种功能在现代搜索引擎中变得越来越常见,尽管很多人可能并不特别关注它。


另一个有趣的应用是图像识别APP。这些应用允许用户拍照,然后使用图像分类技术来识别拍摄的物体是什么,它属于哪个类别,以及具有哪些特征等等。同样地,淘宝等电商应用也提供了拍照搜索功能。您可以上传商品的图片,然后应用程序会找到相同或类似的商品,并为您提供购买链接。这对于那些不知道具体商品名称但知道外观的人来说非常有用。

图片573.png

图像分类在垃圾分类领域的应用是城市管理中的一项重要挑战。传统的垃圾分类投放方式存在乱丢垃圾的问题,但可以通过将传统的垃圾分类投放点进行智能化改造,使用摄像头来解决这个问题。华为提出的智能产品采用语音控制,它可以在垃圾分类点进行人工智能检测,主要功能包括检测未密封的垃圾袋。这项技术具有高准确性和高效率,检测率已达到95%。当垃圾被放置在投放点时,摄像头会扫描并拍照,然后判断垃圾是否可回收,以及垃圾的种类。这一智能垃圾识别技术的应用是非常有前景的。

 

本节回顾

通过本节的学习,我们学到了:

1、图像分类的定义和类别

图像分类的核心是从给定的分类集合中给图像分配一个标签

类别:跨物种语义级别的图像分类、子类细粒度图像分类和多标签图像分类

2、图像分类遇到的挑战

类别不均衡、数据集小、巨大的类内差异和实际应用环境复杂等

3、图像分类常用数据集和网络

CIFAR-10:一个用于识别普适物体的小型图像数据集

常用网络:LeNet、AlexNet等

4、图像分类的应用

图片搜索引擎、智能环卫等

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
659 2
|
计算机视觉
OpenCV(二十三):中值滤波
OpenCV(二十三):中值滤波
478 0
|
存储 域名解析 缓存
|
4月前
|
网络协议 应用服务中间件 网络安全
阿里云SSL免费证书申请流程:免费SSL入口、免费到期后解决方法
阿里云提供免费SSL证书服务,基于Digicert品牌,单域名证书有效期3个月,每个账号每年可申请20张。通过数字证书管理控制台,选择“个人测试证书”完成购买后,进行域名DNS验证(如TXT记录),审核通过后下载适用于Nginx、Apache等的证书文件。到期不可续费,需重新申请。
2745 4
|
10月前
|
自然语言处理 Rust Java
通义灵码编程智能体深度评测(Qwen3模型+终端操作+MCP工具调用实战)
通义灵码作为阿里云推出的智能编程解决方案,凭借Qwen3模型与MCP平台的协同,在代码生成、终端操作与工具链调用方面展现强大能力。本文从真实开发场景出发,评测其在多语言代码理解、自动化工作流及复杂工程任务中的表现,结合性能与成本数据,揭示其在提升开发效率与系统集成方面的工程价值。
904 1
|
存储 安全 区块链
去中心化存储:数据存储的新范式
去中心化存储:数据存储的新范式
769 91
|
11月前
|
人工智能
我说魔,你说搭-魔搭AI视频宣传片挑战赛
当大家都喊魔塔的时候,我们决定搞个事情...有人管咱们叫"魔塔"?
319 4
|
安全 Android开发 数据安全/隐私保护
《鸿蒙Next原生应用的独特用户体验之旅》
鸿蒙Next在界面设计、操作逻辑、动效体验等方面与iOS类似,强调简洁一致性,悬浮效果提升空间感。其操作便捷,动效流畅,性能优化使流畅度提升30%,媲美iOS。智能交互方面,鸿蒙Next的小艺助手和跨设备互联功能表现出色,支持识屏对话等深度交互。安全隐私保护机制细致,应用体积小,节省流量和存储空间。相比安卓和iOS,鸿蒙Next在用户体验上展现出独特优势,为用户带来更优质、便捷和安全的使用感受。
943 9
|
监控 安全 Java
Spring Boot最佳实践:从入门到精通
Spring Boot最佳实践:从入门到精通
|
存储 消息中间件 Kubernetes
多路复用I/O-select
多路复用I/O-select
223 0
下一篇
开通oss服务