图像分类基础与实战-阿里云开发者社区

图像分类基础与实战

2023-07-28 279

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 图像分类基础与实战（1）

理论

什么是图像分类？

图像分类指将不同图像划分为不同类别标签的过程。从计算机的视角来看，一张图片是一个值从0到255的矩阵，计算机对矩阵进行分析，得到类别结果，即计算机视觉的图像分类。

图像分类是计算机视觉领域最基础的问题，解决的问题是：给定一个图像，正确地给出图像所属类别，是最底层、最基本的任务，常作为其他任务的预处理或与其他任务融合在一起，目标检测也是图像分类的子任务。

可以说，计算机视觉基础模型的发展是图像分类提升任务的发展，做好图像分类任务，关系到后续更高阶的内容。

图像分类的应用场景非常丰富，比如图像识别APP，能够识别动物、植物，汽车的车型，水果、蔬菜等；比如iPhone手机上自带的照片自动分类功能；比如电商平台图像内容检索，用户每天可能会上传几万张鞋子图片，后台需要将照片进行分类处理，建立数据库，用户进行图像搜索时，能够实现更精准的搜索；另外，也可用于垃圾分类等场景。

总的来说，图像分类是用于识别某张图片是否为某个物体/状态/场景，适合图像中的主题或状态单一的场景。

图像的领域划分主要有：

多类别图像分类，指每个图像只属于其中一个类别，比如一张图像只能属于猫或只能属于狗。特点为具有较大的类间方差，较小的类内误差，是图像分类中最简单最基本的任务。

细粒度图像分类，比如两张图像中都是猫，但属于不同品种的猫，具有相似的外观和特征，类内差异比较大，因此分类难度更高。

多标签图像分类：每个图像都拥有两种以上的类别，比如一张图中既有猫也有狗，因此标签类别既是猫也是狗。

根据监督信息的不同，分为有监督、弱监督、无监督、自监督等学习：
弱监督学习是机器学习中最经典的任务之一，在训练集中只有少数的标签数据，大部分为未标签数据，训练出的模型用来预测的测试集中有可能是有标签的，也有可能是无标签的；
无监督图像分类指训练集中都是无标签的数据，训练出的模型用来预测的测试集中都是没有标签的。

0样本图像分类：也称为0样本学习模型，能够识别出训练阶段没有出现过的类别，即训练集和测试集在数据的类别上没有交集，是解决类别标签缺失的一种方法。比如图像中训练的数据只有马、老虎和熊猫三个类别的数据，0样本图像分类会通过已有的知识，比如马、老虎与熊猫的描述，对同时拥有马的形状、老虎的斑纹、熊猫的黑白颜色特征的动物识别为斑马。 0样本图像分类指利用类别的高维语义特征来代替样本的低维特征，使得训练出来的模型具有迁移性。比如斑马的高维语义指马的外形、老虎的斑纹和熊猫的颜色，通过高维的语义刻画了斑马类别的特征，从而识别出模型从来没有见过的斑马图像。