图像分类基础（一）-阿里云开发者社区

开发者学习笔记【阿里云人工智能工程师ACA认证（2023版）:图像分类基础（一）】

课程地址：https://edu.aliyun.com/course/3112108/lesson/19274

图像分类基础（一）

内容介绍

一、图像分类定义

二、图像分类的类别

三、图像分类遇到的挑战

四、图像分类的常用数据集与网络

五、图像分类的典型应用

提问：

手机存储容量逐渐增大，许多人的手机里存储着大量照片和视频。您是否遇到过这样的情况，打开手机后需要花费很长时间才能找到特定的照片？通过分类和整理，可以提高照片的可查性。您是否对手机照片进行分类？如果分类，您采用什么方式？

根据图像中的主角，图像所包含的信息

一、图像分类定义

图片564.png

图像分类是计算机视觉中的一个核心任务，其目标是为给定的图像分配一个或多个标签。在图像分类中，我们使用图像分类模型来评估图像属于不同标签的概率。图像分类模型读取该图片；生成该图片属于集合{dog,cat,hat,mause}中各个标签的概率，CAT 属于82%、DOG属于15%、hat属于2%，mouse属于1%，计算机会根据这些概率来确定图像应该归类的标签。

首先，图像被表示为一个大型三维数组，这个数组包含了图像的每个像素点的颜色信息。通常，图像由宽度、高度和颜色通道组成。例如，一张猫的图像可能是240像素宽、250像素高，并且包含红色、绿色和蓝色三个颜色通道。这意味着图像可以表示为一个包含约18万个数字的三维数组，其中每个数字都是介于0到255之间的整数，表示相应颜色通道的强度。

图像分类模型的任务是将这样的三维数组作为输入，然后为该图像分配一个或多个标签，这些标签通常表示图像中包含的对象或场景。模型通过计算图像属于每个标签的概率来完成此任务。例如，对于一张图像，模型可能会输出82%的概率表示它属于"狗"这个标签，以及其他标签的概率。

图片565.png
在进行图像分类时，我们需要考虑如何为图像添加适当的标签。这通常取决于图像的内容。例如，对于一张包含狗的图像，我们可以首先将其标记为"动物"，然后可以进一步细化为"狗"，甚至可以指定狗的品种。对于包含水果的图像，我们可以首先标记为"水果"，然后可以根据实际内容进一步分类。

这样的图像分类过程涉及到识别和理解图像中的内容，并为之分配适当的标签，以便计算机可以根据标签来组织和检索图像数据。

你在加标签的时候，可以根据大理或者是小的个去加标签，那同时你在加标签的时候，也可以加一个标签或者是中座标签，那你怎么做这件事情？你去加标签的不同的这个力度和不同的个数就会形成不同的分类任务。

二、图像分类的类别

图片566.png

接下来，我们来探讨图像分类的类别。图像分类可以分为单标签分类和多标签分类两种类型。单标签分类是指每个数据样本只能划分到一个大类中，换句话说，一幅图像只能被分配一个标签。数据分类后，每个图像都将被赋予一个值，表示其所属的分类。

具体来说，单标签分类可以进一步细分为二分类和多分类。在二分类中，只有两个选项，通常用0和1表示，每个数据样本只能属于其中一个类别。例如，对于三个样本，分类结果可能是0、1、0，表示第一个样本属于0类，第二个样本属于1类，第三个样本属于0类。

多标签分类允许数据样本划分到多个不冲突的类别中。这意味着在一个大的主题下，可以对数据样本进行二分类或多分类。例如，一幅图像可以被赋予两个标签，而每个标签只能做二分类，即0或1。对于三个样本，这三个样本可能分别被标记为001，这意味着第一个样本属于第一个标签的0类，第二个样本属于第二个标签的0类，第三个样本属于第三个标签的1类。

不管是单标签还是多标签分类，它们在训练和标注时都有类似的思路，尽管单标签分类相对更容易标注。总的来说，图像分类的框架适用于不同的物种层次，能够识别不同类别的对象，例如猫狗分类。这种分类之所以有效，是因为各个类别之间属于不同的大类别，也就是不同的物种。这种大类别之间的差异性较大，而类内具有较小的类内方差，有助于分类任务的准确性。传统的方法通常使用特征提取，而现代主要依赖于深度学习技术。

图片567.png

数据驱动的图像分类通常使用深度学习方法，具有出色的效果。这也类似于人类学习识别猫和狗的区别一样，因为它们之间的差异很大，特征明显。然而，在图像分类中，还存在子类别的细粒度分类任务，这比跨物种分类更具挑战性。这种细粒度分类指的是在同一大类中对子类别进行分类，例如不同种类的鸟类。

图片568.png

相对于跨物种分类，细粒度分类更为复杂，因为这些类别通常在外观和特征上更相似，并且数据采集过程中可能存在噪声干扰。这使得类内差异较小，类间差异较大，增加了分类的难度。尽管细粒度分类更具挑战性，但在一些领域，特别是需要更详细类别信息的应用中，它具有更大的价值。

多标签图像分类是另一种需求，允许一个数据样本分配多个不互斥的标签。这些标签可以表示图像的不同属性，而且它们并不排斥彼此。多标签分类对标签数量和复杂性提出了挑战，但在许多现实世界的应用中很有用，例如自动图像标注。

然而，多标签分类也存在问题。标签数量巨大且复杂，标签之间可能存在依赖关系，标签不能完美覆盖所有情况，而且标签的语义含义可能不清晰。这使得多标签分类任务具有挑战性。

图片569.png

猫、书包、盆栽、鸟、房屋、天空、人、盘子、手机。

总之，图像分类有多种类别和子任务，包括跨物种分类、细粒度分类和多标签分类。这些任务的复杂性和挑战性因情况而异，取决于数据集和应用需求。

图像分类可能面临以下问题之一：图像中包含了多个不同领域的信息。如果您曾进行手工标注或数据标注工作，可能会遇到这种情况。在进行图像分类时，图像内包含多个领域的信息，这可能使得区分某些类别变得复杂。有时候，图像中的内容跨越多个潜在类别，难以明确地分离。这会增加分类模型的挑战，因为它需要同时考虑多个可能的类别。

另一个常见问题是某些图像类别的样本数量太少，例如罕见的害虫类别。如果您希望训练机器学习模型来执行这些分类任务，您需要大量的数据来教导模型。然而，某些类别的图像数量可能非常有限，这就带来了挑战。解决这个问题可能需要采用一些方法，例如数据增强或迁移学习，以处理类别不平衡的情况，以确保模型能够更好地处理罕见类别。

图像分类基础（一）