开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):数据标注(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19262
数据标注(一)
内容介绍
一、 数据标注概述及重要性
二、 多类型数据的标注方法及标准
三、 数据标注的常用文件格式
四、 机器学习PAI平台的智能标注概述
五、 实验:基于ITA智能标注平台的服饰品类图形标注
一、数据标注概述及重要性
提问
同学们来思考一个问题,在我们的数据处理完成之后,把我们的数据输入给机器实习模型学习之前,一般情况之下,我们还需要做哪些?
有同学提到,我们需要告诉模型这些数据代表什么。例如,我们可以考虑猫狗识别的例子,我们不能仅仅输入图片而不提供额外信息。如果我们只是将两张图片输入计算机,但不告诉计算机这些数据代表猫和狗,那将无法实现识别。因此,我们需要对这些图片进行标记,即数据标注。
首先,数据标注是人工智能算法有效运行的关键环节之一。它利用标注工具,通过手动或自动方式对人工智能学习数据进行处理。这包括为数据贴上标签、对数据进行分类、甚至在图像上划定边界框。通过这些操作,我们让计算机不断学习数据的特征,以便最终实现自主识别的效果。换句话说,数据标注是分类、划框等操作的过程,用于处理语音、图片、文本等数据,以提高机器学习和深度学习模型的准确性。
数据标注通常涉及三大类:语音标注、图片标注和文本标注。
具体的标注方法可以通过绘制边界框等方式来完成。一旦完成标注,我们就可以为后续处理提供相应的训练数据。
数据标注的应用场景广泛,包括语音识别、无人驾驶车辆识别、人脸识别、花卉识别、文本识别等领域,这些场景中的模型需要通过标注数据来学习规律和特征。
因此,首要任务是准备一个标注数据集,无论是通过人工还是自动化方式收集的数据,都需要经过数据标注。
只有在数据标注完成后,这些数据才能被有效地使用。标注数据的准确性和数量将直接影响整个数据集的质量。在进行人工智能算法的训练时,训练数据的质量越高,最终模型的预测效果也会更好。因此,数据标注在整个过程中扮演着非常重要的角色。
二、多类型数据的标注方法及标准
接下来,我们将学习不同类型的数据以及它们的标注方法和标准。首先,我们来看图像标注的一种方法,它分为几个主要部分:
1、第一部分是目标定位,包括二维和三维边界框。
我们首先来讨论目标定位,这是图像标注中常见的任务类型之一。在这个任务中,我们需要精确地标注出图像中指定的目标对象,如花瓶或花树,将边界框完全包围目标对象。
2、第二部分是图像分类。
图像分类的目标是理解每张图像的内容,并将其归类到相应的类型。
3、第三部分是直线和曲线标注。
通常用于分割对象的边界,尤其在自动驾驶中常见。
4、第四类是多边形标注,也称为轮廓标注。
通常用于不规则目标对象,需要在目标的关键点上进行标注,以反映其轮廓和形状。最后,我们有语义分割,这是根据物体属性对图像进行区域划分并标记属性的方法,以用于训练图像识别模型。
5、第五类是语义分割标注。
语义分割需要根据语义信息划分整个场景图像,例如,我们可以标记出车辆、道路和植物等区域,用不同颜色表示它们。接下来,我们将了解图像标注的五大类别。
首先是目标检测,这个任务要求我们定位图像中的具体目标,最常用的工具是边界框。
举例来说,在这张包含多个动物的图像中,我们希望检测图中的兔子和小猫。因此,我们使用边界框来精确框出兔子和小猫所在的区域。目标检测通常应用于车辆检测、行人检测以及图像搜索等领域。
第二个图像标注类别是分割,前面我们已经简要介绍了语义分割。语义分割的任务是识别图像中存在的对象内容及其位置,通常使用多边形描绘工具、笔刷工具和超像素工具。在这个示例中,我们需要描绘出汽车和人的轮廓,然后将其组成多边形,从而分割出汽车和人物的部分。语义分割经常应用于自动驾驶场景识别以及服装分类等领域。
第三类是图像分类,这是将输入图像与预定义分类标签匹配的任务。例如,在这个示例中,分类标签集合包括篮球和足球,而图像中的人们正在打篮球,因此我们应将图像分类为篮球。图像分类通常应用于图像排序和图像搜索等领域。
第四类是光学字符识别(OCR),它涉及将图像中的文字转化为文本格式,然后根据文本信息的类别对图像进行分类。OCR常用于身份证识别、文档识别以及车牌识别等领域,如左侧的火车票示例所示,通过OCR技术,我们可以自动识别出票据上的文本内容。
最后一类是图像的综合标注,这意味着在一组标签集合中,对输入图像的内容进行标签匹配。例如,将绿色框框标记为"人",将红色车标记为"房车"。这种综合标注方法通常用于自动驾驶和内容识别等领域。
让我们介绍两款常用的图像标注工具。首先是一款名为的图形图像注释工具,它是使用Python的Qt库开发的。
这支持标注工具的一个优点是它能够跨Windows系统使用,而且安装使用也相对简单。然而,它的一个缺点是只支持单个边界框的标注,因此主要用于图像分类和目标检测。
另一款软件叫做,它支持矩形、线条和点的标注,同样具有图形界面。它支持导出适用于语义分割和实例分割的标签文件,因此主要用于语义分割领域。除此之外,还有其他许多图像标注工具。
接下来,让我展示一个图像标注的示例,使用了多边形标注工具。
标注完成后,会在当前图像路径生成一个文件,其中包含目标物体(如汽车)的标签和颜色等信息。
前面我们提到,图像标注的质量将直接影响最终模型训练的结果。因此,让我们简要讨论一下图像标注的质量标准。图像标注的质量取决于像素级别标注的准确性。简单来说,标注的像素点越接近目标物体的边缘,标注质量越高,但标注难度也越大。对于边界框标注,我们需要确保边界框紧密包围目标物体。
例如,在这只小猫的标注中,边界框刚好包裹住了大部分猫的身体,但底部和耳朵可能没有被包括。与之相比,兔子的标注更准确,因为边界框紧密包围了整个物体。对于多边形标注,我们希望多边形边框能够紧密贴合物体的边缘。在这两个示例中,与小车标注相比,人物的标注更准确,因为它更紧密地符合人物的轮廓。
对于小车的标注,我们可以看到存在一些空隙,可以进一步改进,以更紧密贴合小车的轮廓。
文本标注通常可以分为四个主要类别:
第一个类别是文本分类标注,它涉及对文本进行分类的过程,包括单标签和多标签的分类,主要应用于情感分析、新闻分类等任务。例如,根据用户的评论对其情感进行标签化,如“服务很好”是一个积极的标签,而“不满意”则是一个消极的标签。这是文本的分类标注。
第二类是文本实体标注,它涉及对文本中的通用实体进行标注,主要用于识别商品名称或新闻主体词等。例如,对于下面的文本示例,人名如"科恩"和"霍斯",公司名如"雅虎"以及职务名如"CEO"都被标注出来。这是文本的实体标注。
第三类是文本词性标注,它实际上是对单词的性质进行标注,如名词、动词等。这通常用于数据清理、预处理和增强文本处理程序的数据。例如,在下面的例子中,"买衣服"中的"买"是一个动词,而"淘宝"是一个名词。这是文本的词性标注。
最后一类是文本实体关系标注,它涉及对文本中实体之间的关系进行标注,通常用于知识图谱等领域。例如,在下面的新闻示例中,我们可以对实体之间的关系进行标注。接下来,让我们看一下文本标注质量的标准。
文本标注的质量取决于像素级别的标注准确性。简而言之,标注的像素点越接近文本的边缘,标注质量越高,但也越具有挑战性。对于文本分类标注,我们需要确保标签与文本内容的匹配度。标注的质量直接影响后续模型的性能。
首先对于文本的标注来说,我们要情感符合真实的句子情感,我们的语义标注要标注正确的一个语义。对于多音字来说的,我们要符合字典当中的这个读音。此外,我们需要对文本当中感兴趣的内容进行适当的,需要将我们文本分成词语,并对词语进行词性的标注,比如形容词,名词,动词。之后,我们要去掉对文本的含义无用的这些词语,比如说我们的一些标点符号,这样我们就可以得到一个质量较高的文本的标注了。
语音标注是对语音对应的信息进行标记的过程,主要应用于语音识别和实时翻译等领域。语音标注工具主要用于分析、标注、处理和合成数字化语音信号。语音标注类别主要包括音频分类、音频分割和音频识别。
音频分类指的是在一组固定的分类标签中,找到与输入音频内容相匹配的一个或多个标签,并将其分配给该输入音频。这通常用于识别音频场景中的不同类别,如野外动物声音分类或噪音分类。
音频分割是指通过识别音频内容并将其分割成多个片段,然后为每个片段分配不同的标签。这通常用于对话内容的分析,将不同的对话片段归类到不同的标签中。
音频识别则是将一段音频识别为文本内容,并可进行相应标签的匹配。这常用于方言识别和语音标注。在进行语音标注时,首先要检查音频中的语音是否有效。如果带有说话人的方言或多人说话,需要标记口音和说话人的数量。同时,如果音频中存在明显的噪音,也需要进行噪音标注。最重要的是,语音标注必须与实际发音内容完全一致,以确保文本的准确性。