数据标注(一)

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 数据标注(一)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):数据标注(一)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19262


数据标注(一)

 

内容介绍

一、 数据标注概述及重要性

二、 多类型数据的标注方法及标准

三、 数据标注的常用文件格式

四、 机器学习PAI平台的智能标注概述

五、 实验:基于ITA智能标注平台的服饰品类图形标注

 

一、数据标注概述及重要性


提问

同学们来思考一个问题,在我们的数据处理完成之后,把我们的数据输入给机器实习模型学习之前,一般情况之下,我们还需要做哪些?

有同学提到,我们需要告诉模型这些数据代表什么。例如,我们可以考虑猫狗识别的例子,我们不能仅仅输入图片而不提供额外信息。如果我们只是将两张图片输入计算机,但不告诉计算机这些数据代表猫和狗,那将无法实现识别。因此,我们需要对这些图片进行标记,即数据标注。

首先,数据标注是人工智能算法有效运行的关键环节之一。它利用标注工具,通过手动或自动方式对人工智能学习数据进行处理。这包括为数据贴上标签、对数据进行分类、甚至在图像上划定边界框。通过这些操作,我们让计算机不断学习数据的特征,以便最终实现自主识别的效果。换句话说,数据标注是分类、划框等操作的过程,用于处理语音、图片、文本等数据,以提高机器学习和深度学习模型的准确性。


数据标注通常涉及三大类:语音标注、图片标注和文本标注。

具体的标注方法可以通过绘制边界框等方式来完成。一旦完成标注,我们就可以为后续处理提供相应的训练数据。

数据标注的应用场景广泛,包括语音识别、无人驾驶车辆识别、人脸识别、花卉识别、文本识别等领域,这些场景中的模型需要通过标注数据来学习规律和特征。

图片442.png


因此,首要任务是准备一个标注数据集,无论是通过人工还是自动化方式收集的数据,都需要经过数据标注。


只有在数据标注完成后,这些数据才能被有效地使用。标注数据的准确性和数量将直接影响整个数据集的质量。在进行人工智能算法的训练时,训练数据的质量越高,最终模型的预测效果也会更好。因此,数据标注在整个过程中扮演着非常重要的角色。

 

二、多类型数据的标注方法及标准


图片443.png


接下来,我们将学习不同类型的数据以及它们的标注方法和标准。首先,我们来看图像标注的一种方法,它分为几个主要部分:

1、第一部分是目标定位,包括二维和三维边界框。

我们首先来讨论目标定位,这是图像标注中常见的任务类型之一。在这个任务中,我们需要精确地标注出图像中指定的目标对象,如花瓶或花树,将边界框完全包围目标对象。

2、第二部分是图像分类。

图像分类的目标是理解每张图像的内容,并将其归类到相应的类型。

3、第三部分是直线和曲线标注。

通常用于分割对象的边界,尤其在自动驾驶中常见。

4、第四类是多边形标注,也称为轮廓标注。

通常用于不规则目标对象,需要在目标的关键点上进行标注,以反映其轮廓和形状。最后,我们有语义分割,这是根据物体属性对图像进行区域划分并标记属性的方法,以用于训练图像识别模型。

5、第五类是语义分割标注。

语义分割需要根据语义信息划分整个场景图像,例如,我们可以标记出车辆、道路和植物等区域,用不同颜色表示它们。接下来,我们将了解图像标注的五大类别。

首先是目标检测,这个任务要求我们定位图像中的具体目标,最常用的工具是边界框。

图片444.png


举例来说,在这张包含多个动物的图像中,我们希望检测图中的兔子和小猫。因此,我们使用边界框来精确框出兔子和小猫所在的区域。目标检测通常应用于车辆检测、行人检测以及图像搜索等领域。

第二个图像标注类别是分割,前面我们已经简要介绍了语义分割。语义分割的任务是识别图像中存在的对象内容及其位置,通常使用多边形描绘工具、笔刷工具和超像素工具。在这个示例中,我们需要描绘出汽车和人的轮廓,然后将其组成多边形,从而分割出汽车和人物的部分。语义分割经常应用于自动驾驶场景识别以及服装分类等领域。


第三类是图像分类,这是将输入图像与预定义分类标签匹配的任务。例如,在这个示例中,分类标签集合包括篮球和足球,而图像中的人们正在打篮球,因此我们应将图像分类为篮球。图像分类通常应用于图像排序和图像搜索等领域。

图片445.png


第四类是光学字符识别(OCR),它涉及将图像中的文字转化为文本格式,然后根据文本信息的类别对图像进行分类。OCR常用于身份证识别、文档识别以及车牌识别等领域,如左侧的火车票示例所示,通过OCR技术,我们可以自动识别出票据上的文本内容。


最后一类是图像的综合标注,这意味着在一组标签集合中,对输入图像的内容进行标签匹配。例如,将绿色框框标记为"人",将红色车标记为"房车"。这种综合标注方法通常用于自动驾驶和内容识别等领域。

图片446.png


让我们介绍两款常用的图像标注工具。首先是一款名为的图形图像注释工具,它是使用Python的Qt库开发的。

这支持标注工具的一个优点是它能够跨Windows系统使用,而且安装使用也相对简单。然而,它的一个缺点是只支持单个边界框的标注,因此主要用于图像分类和目标检测。

另一款软件叫做,它支持矩形、线条和点的标注,同样具有图形界面。它支持导出适用于语义分割和实例分割的标签文件,因此主要用于语义分割领域。除此之外,还有其他许多图像标注工具。

图片447.png


接下来,让我展示一个图像标注的示例,使用了多边形标注工具。

标注完成后,会在当前图像路径生成一个文件,其中包含目标物体(如汽车)的标签和颜色等信息。

前面我们提到,图像标注的质量将直接影响最终模型训练的结果。因此,让我们简要讨论一下图像标注的质量标准。图像标注的质量取决于像素级别标注的准确性。简单来说,标注的像素点越接近目标物体的边缘,标注质量越高,但标注难度也越大。对于边界框标注,我们需要确保边界框紧密包围目标物体。

例如,在这只小猫的标注中,边界框刚好包裹住了大部分猫的身体,但底部和耳朵可能没有被包括。与之相比,兔子的标注更准确,因为边界框紧密包围了整个物体。对于多边形标注,我们希望多边形边框能够紧密贴合物体的边缘。在这两个示例中,与小车标注相比,人物的标注更准确,因为它更紧密地符合人物的轮廓。

图片448.png

对于小车的标注,我们可以看到存在一些空隙,可以进一步改进,以更紧密贴合小车的轮廓。

图片449.png


文本标注通常可以分为四个主要类别:

第一个类别是文本分类标注,它涉及对文本进行分类的过程,包括单标签和多标签的分类,主要应用于情感分析、新闻分类等任务。例如,根据用户的评论对其情感进行标签化,如“服务很好”是一个积极的标签,而“不满意”则是一个消极的标签。这是文本的分类标注。

第二类是文本实体标注,它涉及对文本中的通用实体进行标注,主要用于识别商品名称或新闻主体词等。例如,对于下面的文本示例,人名如"科恩"和"霍斯",公司名如"雅虎"以及职务名如"CEO"都被标注出来。这是文本的实体标注。

第三类是文本词性标注,它实际上是对单词的性质进行标注,如名词、动词等。这通常用于数据清理、预处理和增强文本处理程序的数据。例如,在下面的例子中,"买衣服"中的"买"是一个动词,而"淘宝"是一个名词。这是文本的词性标注。

最后一类是文本实体关系标注,它涉及对文本中实体之间的关系进行标注,通常用于知识图谱等领域。例如,在下面的新闻示例中,我们可以对实体之间的关系进行标注。接下来,让我们看一下文本标注质量的标准。

文本标注的质量取决于像素级别的标注准确性。简而言之,标注的像素点越接近文本的边缘,标注质量越高,但也越具有挑战性。对于文本分类标注,我们需要确保标签与文本内容的匹配度。标注的质量直接影响后续模型的性能。

首先对于文本的标注来说,我们要情感符合真实的句子情感,我们的语义标注要标注正确的一个语义。对于多音字来说的,我们要符合字典当中的这个读音。此外,我们需要对文本当中感兴趣的内容进行适当的,需要将我们文本分成词语,并对词语进行词性的标注,比如形容词,名词,动词。之后,我们要去掉对文本的含义无用的这些词语,比如说我们的一些标点符号,这样我们就可以得到一个质量较高的文本的标注了。

图片450.png


语音标注是对语音对应的信息进行标记的过程,主要应用于语音识别和实时翻译等领域。语音标注工具主要用于分析、标注、处理和合成数字化语音信号。语音标注类别主要包括音频分类、音频分割和音频识别。

音频分类指的是在一组固定的分类标签中,找到与输入音频内容相匹配的一个或多个标签,并将其分配给该输入音频。这通常用于识别音频场景中的不同类别,如野外动物声音分类或噪音分类。

音频分割是指通过识别音频内容并将其分割成多个片段,然后为每个片段分配不同的标签。这通常用于对话内容的分析,将不同的对话片段归类到不同的标签中。

音频识别则是将一段音频识别为文本内容,并可进行相应标签的匹配。这常用于方言识别和语音标注。在进行语音标注时,首先要检查音频中的语音是否有效。如果带有说话人的方言或多人说话,需要标记口音和说话人的数量。同时,如果音频中存在明显的噪音,也需要进行噪音标注。最重要的是,语音标注必须与实际发音内容完全一致,以确保文本的准确性。

相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 数据处理
什么是数据标注
什么是数据标注
322 0
|
存储 算法 索引
RLE格式分割标注文件表示
RLE格式分割标注文件表示
1034 0
|
XML JSON 数据中心
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
|
JSON 数据格式 Python
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
1133 0
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
|
存储 自然语言处理 数据处理
信息抽取UIE(二)--小样本快速提升性能(含doccona标注
需求跨领域跨任务:领域之间知识迁移难度高,如通用领域知识很难迁移到垂类领域,垂类领域之间的知识很难相互迁移;存在实体、关系、事件等不同的信息抽取任务需求。 - 定制化程度高:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。 - 训练数据无或很少:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高。
信息抽取UIE(二)--小样本快速提升性能(含doccona标注
|
8月前
|
机器学习/深度学习 数据采集 算法
大模型时代下的数据标注
大模型时代下的数据标注
285 2
大模型时代下的数据标注
|
8月前
|
机器学习/深度学习 数据处理 文件存储
使用Labelimg进行数据标注
数据标注是计算机视觉和机器学习项目中至关重要的一步,而使用工具进行标注是提高效率的关键。本文介绍了LabelImg,一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域,为训练机器学习模型提供高质量的标注数据。LabelImg已经成为研究者和开发者在计算机视觉项目中不可或缺的工具之一。
232 0
|
自然语言处理 数据处理
浅析命名实体识别(NER)的三种序列标注方法
简述序列标注 序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
|
数据采集 机器学习/深度学习 人工智能
数据标注(二)
数据标注(二)
468 0
|
XML 存储 数据处理
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等