数据标注(二)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 数据标注(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):数据标注(二)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19262


数据标注(二)


三、数据标注的常用文件格式


图片451.png

常见的数据标注文件格式包括XML格式和CSV文件格式。下面我们将看一些每种文件格式的示例。

通常情况下,XML文件格式是一种可扩展的标记语言,用于标记和定义数据类型,允许用户自定义标签。在下面的图示中,我们展示了一个XML文件的结构。您可以看到文件包含了文件夹名称、图像名称、详细路径、图像大小(长度和宽度)以及空间层次。此外,我们还可以看到对象(如人物)以及执行框的具体位置坐标。


我们来看一个CSV文件的示例。CSV文件通过每个标注区域具有特定属性和相应位置信息来定义标注结果。在这个示例数据中,首先包括了图像位置信息,然后我们看到了执行标注的标注类型。接下来,我们看到了图像的分类,即这张图片属于苹果的类别。最后一列是二分类的分类标签。

机器学习平台的智能标注是一种智能化的数据标注平台,支持多种数据类型的标注,包括图像、文本、视频和音频,以及多模态混合变量的标注。这个智能标注平台提供了丰富的标注内容组件和题目组件。


用户可以使用平台提供的标准模板,也可以根据自己的场景需求创建自定义模板。平台还提供了各种标注类型的内容,包括图像类的标注,如图片OCR、目标检测、图像分类;文本类的标注,如实体识别、文本分类和实体关系标注;以及语音类的标注,如音频分类、音频分割和音频识别。此外,还有视频类的标注,其中视频分类是对视频按照预设标签进行分类标记。


视频标注可以根据需要使用单一标签对其进行分类,也可以使用多个标签对其进行分类。如果平台提供的模板、内容组件和题目组件无法满足用户的需求,用户在创建交互任务时还可以选择自定义模板。因此,这个智能标注平台具有非常大的灵活性,允许用户根据他们的具体需求进行定制。

 

四、机器学习PAI平台的智能标注概述


图片452.png

我们将详细介绍机器学习平台中智能标注的具体步骤。这个完成流程可以分为四个部分,包括数据准备、创建标注任务、处理标注任务和导出最终的标注结果。


首先,数据准备阶段需要使用阿里的P平台进行工作。在这个阶段,您需要通过数据集管理模块,创建数据集并上传相关文件。接下来,您可以使用阿里的P平台标注工具,创建数据标注任务。在此过程中,您可以选择使用智能标注平台提供的通用模板或自定义模板来创建任务。


在创建标注任务时,任务流程分为四种类型:打标、打标加验收、打标验收、打标检测加验收。打标是必选环节,而前验收和验收是可选环节,您可以根据需要选择任务类型。


任务分发阶段包括四个主要任务环节:打标、打标加验收、打标验收、打标检测加验收。在这些环节中,标注员登录标注系统,领取任务包,完成标注工作,然后提交标注任务。在验收环节,标注员可以对已完成的任务包进行检查、修改或驳回。


最后一个阶段是任务收回。在这个环节中,需求方需要进行最后一步的验收,包括验收、修改或驳回标注任务。需求方可以通过登录标注平台,在验收任务页面领取相应的任务包,并进行最终验收。

第三部分是处理标注任务。在这个环节中,按照任务流程,任务包可以进行打标或验收,从而获得标注好的数据。


最后一步是导出标注结果,您可以将数据导出到指定的OSS目录,以供模型训练使用。接下来,我们将通过一个实验来详细介绍如何使用智能标注平台完成服装品类的图像标注。

 

五、实验 :基于ITA智能标注平台的服饰品类图形标注


图片453.png


我们知道,初始的人工智能软件就像新生婴儿一样,一片空白,需要教导它识别周围的事物。就像我们告诉婴儿鼻子的功能是用来呼吸的,嘴巴是用来说话和吃东西的。同样地,AI需要通过大量的图像和算法学习,来自主认知物体和其特征,并进行图像分类标注。


因此,数据标注的责任就是将提供给AI的图像中的不同场景和目标物体找出来,以便计算机可以用这些数据进行自主学习。在这个项目中,我们使用了时尚服饰品类的图像,包括衣服、裤子和鞋子。这个项目的目标是基于智能标注平台进行图像标注任务。

图片454.png


实验的步骤主要包括以下几点:

首先,通过阿里云的对象存储(OSS)平台,将需要标注的服饰图像上传到云端存储,以备后续使用。

在进入对象存储(OSS)之后,创建适当的目录结构,并将下载的服饰图像上传到云端,以备后续标注使用。

创建数据集:在机器学习平台的界面中,创建与您的数据集相关的数据集,这将用于后续的标注任务。

创建标注任务:选择先前创建的数据集,选择标注类型(例如目标检测),然后创建所需的标签(例如衣服、鞋子、裤子)。设置任务的流程,通常包括打标、质检和验收。

标注图像:进入标注页面,使用方框工具框选图像中的物品,并为每个物品打上相应的标签。在完成所有图像的标注后,提交标注任务。

获取标注结果:提交标注任务后,您可以在标注界面中获得标注结果,这些结果可以用于训练模型或其他应用。


这些步骤将帮助您完成服饰品类图像的智能标注任务。

我们可以将标注结果导出到对象存储(OSS)的指定路径上,然后在前往OSS界面查看并保存已标注好的文件,以便后续项目开发和模型训练的使用。

图片455.png

在数据标注过程中,确保准确地标注出物体的边缘非常关键,因为这将有助于模型更好地学习物体的特征,提高模型的识别效果。

 

本章小结

首先,我们了解了数据的定义以及两种常见的数据分类方式。然后,我们学习了数据采集的定义以及常用的采集方法,包括网络数据采集、爬虫数据采集、传感器数据采集和数据库数据采集。接下来,我们探讨了数据预处理的概念和不同类型的数据预处理方法,包括处理异常数据、重复数据、缺失数据以及处理数据样本不平衡的方法。

对于异常数据,我们可以删除或修正错误值。对于重复数据,我们通常将其筛选并删除。处理缺失数据时,可以采用手动或自动填充的方式。在自动填充中,我们讨论了均值插补、中位数插补和众数插补等方法。最后,我们强调了处理数据样本不平衡问题的重要性,可以采用过采样或欠采样等方法来处理。


这些知识将为数据标注和数据处理提供基础,并有助于实现更准确的机器学习模型。如果需要更深入或具体的信息,请随时提问。


我们主要讨论了欠采样和过采样的问题,可以通过调用Python中相应的第三方库中的随机采样函数来进行处理。接着,我们学习了数据标准化的含义,同时介绍了两种数据标准化的类型,包括最小-最大标准化和标准化。然后,我们详细介绍了它们的基本原理和Python的实现方法。然而,对于这两种标准化类型,我们更倾向于最大-最大标准化,因为它不需要我们的数据符合特定的分布。


但是对于我们的数据而言,我们需要原始数据,它能够满足正态分布这种特定的分布。接下来,我们讨论了数据编码的含义,并重点介绍了两种数据编码技术,一种是LABEL 编码,另一种是独热编码。对于LABEL编码,我们实际上是根据不同的值的数量,从零开始逐一排序它们。然而,这种方法会增加编码之间的大小差异和距离差异。为了解决这个问题,我们提出了独热编码。此外,我们还讨论了如何使用这两种编码来实现我们的数据编码。此外,我们还介绍了数据可视化的含义,它实际上是用可视化图表的方式更直观、简洁地解释数据。在这个过程中,我们介绍了五种典型的图表类型,包括折线图、散点图、柱状图和饼图,以及它们的绘制方法。我们还讨论了这些图表类型的具体用法以及其中的一些关键参数。接下来,我们介绍了当前常见的数据可视化工具,主要是Tableau和Power BI。我们介绍了这些工具的功能特点以及常见的应用场景。最后,我们提到了数据标注的定义。


主要介绍了图像数据标注、文本数据标注和语音数据标注这三大类。我们详细讨论了每一类的应用场景和重要性。接着,我们针对每个分类的标注方法提出了相应的标注质量标准。例如,对于图像数据,不论是方框还是其他标注,都必须严密贴合物体的整体轮廓。


我们还提到了常用的数据标注文件格式,包括XML和JSON,并展示了一个文件的存储示例。最后,我们通过一个案例演示了在AI平台中执行智能标注功能,详细介绍了如何使用该平台进行标注。这就是本章的全部内容,期待在下一节课再见。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 数据处理
什么是数据标注
什么是数据标注
286 0
|
6月前
单细胞分析|映射和注释查询数据集
单细胞分析|映射和注释查询数据集
88 3
|
XML JSON 数据中心
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式
|
JSON 数据格式 Python
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
1075 0
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
|
存储 自然语言处理 数据处理
信息抽取UIE(二)--小样本快速提升性能(含doccona标注
需求跨领域跨任务:领域之间知识迁移难度高,如通用领域知识很难迁移到垂类领域,垂类领域之间的知识很难相互迁移;存在实体、关系、事件等不同的信息抽取任务需求。 - 定制化程度高:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。 - 训练数据无或很少:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高。
信息抽取UIE(二)--小样本快速提升性能(含doccona标注
|
6月前
|
算法 数据处理 计算机视觉
论文介绍:基于点标注的实例分割
【5月更文挑战第24天】研究人员提出了一种创新的弱监督实例分割方法,通过点标注代替传统的像素级掩模标注,显著降低数据标注成本和时间。点标注方案只需在对象边界框内标注少量点,与Mask R-CNN兼容,实现接近全监督性能。改进的PointRend模块(Implicit PointRend)在点监督下表现出色,简化了模型设计。实验表明,使用10个点标注的Mask R-CNN能达到全监督模型的性能,为实例分割的实际应用开辟了新途径。尽管取得初步成功,但面临处理不同尺度对象和提高泛化能力的挑战。
70 4
|
6月前
|
机器学习/深度学习 数据采集 算法
大模型时代下的数据标注
大模型时代下的数据标注
252 2
大模型时代下的数据标注
|
6月前
|
机器学习/深度学习 数据处理 文件存储
使用Labelimg进行数据标注
数据标注是计算机视觉和机器学习项目中至关重要的一步,而使用工具进行标注是提高效率的关键。本文介绍了LabelImg,一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域,为训练机器学习模型提供高质量的标注数据。LabelImg已经成为研究者和开发者在计算机视觉项目中不可或缺的工具之一。
200 0
|
自然语言处理 数据处理
浅析命名实体识别(NER)的三种序列标注方法
简述序列标注 序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
|
机器学习/深度学习 自动驾驶 数据处理
数据标注(一)
数据标注(一)
509 0