4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

简介: 4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

情感分析任务Label Studio使用指南

请在此添加图片描述

1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等

3.基于Label studio的训练数据标注指南:文本分类任务

4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

目录

1. label-studio 安装

本内容在以下环境进行测试安装:

  • python == 3.9.12
  • label-studio == 1.6.0

在终端(terminal)使用pip安装label-studio:

pip install label-studio==1.6.0

安装完成后,运行以下命令行:

label-studio start

在浏览器打开http://localhost:8080/,输入用户名和密码登录,开始使用label-studio进行标注。

2. label-studio 项目创建

创建项目之前,需要先确定标注的任务类型以及需要标注哪些内容,然后点击创建(Create)开始创建一个新的项目,填写项目名称、描述。

请在此添加图片描述

如果数据已经准备好,可以在此进行导入数据。

请在此添加图片描述

接下来,根据需要标注的任务类型,选择适合的任务。在本项目中,默认会包含两种类型的任务:语句级情感分类任务和属性级情感分析任务。由于这两者都属于自然语言处理(NLP)任务,因此可以点击 Natural Language Processing 选项,在该选项下面进行选择相应的子项任务。

  • 如果标注语句级情感分类任务,请选择Text Classification

请在此添加图片描述

  • 如果标注属性级情感分析任务,比如属性-观点词-情感极性三元组的信息抽取,请选择Relation Extraction

请在此添加图片描述

最后点击保存即可。

3. 情感分析任务标注

3.1 语句级情感分类任务

这里对应的任务类型为Text Classification,在标注之前,需要设定正向负向的标签,然后保存即可。

请在此添加图片描述

设定好标签后,即可开始进行标注,选择正向或负向,最后点击提交,便标注好一条数据。

请在此添加图片描述

3.2 属性级情感分析任务

在本项目中,属性级的情感分析需要配置的标注任务类型为Relation Extraction,包括属性抽取、观点抽取、属性-观点抽取、属性-情感极性抽取、属性-情感极性-观点词三元组抽取等任务。其中属性-情感极-观点词(A-S-O)三元组抽取是最常见的任务之一,下面优先讲解该任务的标注规则。

3.2.1 属性-情感极性-观点词抽取

属性-情感极性-观点词(A-S-O)三元组抽取标注内容涉及两类标签:Span 类型标签和 Relation 类型标签。其中Span标签用于定位文本批评中属性、观点词和情感极性三类信息,Relation类型标签用于设置评价维度和观点词、情感倾向之间的关系。

(1)Span类型标签

这里需要定位属性、情感极性、观点词三类信息,在标注时,需要将属性和情感极性进行组合,形成复合标签。具体来讲,设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。另外,利用标注标签观点词定位语句中的观点词。

请在此添加图片描述

(2)Relation类型标签

这里只涉及到1中Relation类型标签,即评价维度观点词的映射关系。这里可以设置一下两者关系的名称,即点击Code,然后配置关系名称(这里将两者关系设置为观点词),最后点击保存即可。

请在此添加图片描述

在设置好Span类型和Relation标签之后,便可以开始进行标注数据了。

请在此添加图片描述

3.2.2 属性-情感极性抽取

如3.2.1所述,本项目中针对属性-情感极性(A-S)抽取任务,采用Span的形式进行标注。设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。下图展示了关于属性-情感极性抽取任务的标注示例。

请在此添加图片描述

3.2.3 属性-观点词抽取

针对属性-观点词(A-O)抽取任务,采用Relation的形式进行标注。这需要将属性对应标注标签设定为评价维度,观点词设定为观点词。下图展示了关于属性-观点词抽取任务的标注示例。

请在此添加图片描述

3.2.4 属性抽取

针对属性(A)抽取任务,采用Span的形式进行标注。 这需要将属性对应的标注标签设定为评价维度。下图展示了关于属性抽取任务的标注示例。

请在此添加图片描述

3.2.4 观点词抽取

针对观点词(O)抽取任务,采用Span的形式进行标注。 这需要将观点词对应的标注标签设定为观点词。下图展示了关于观点词抽取任务的标注示例。

请在此添加图片描述

4. 导出标注数据

勾选已标注文本ID,点击Export按钮,选择导出的文件类型为JSON,导出数据:

请在此添加图片描述

5. References

相关文章
|
Ubuntu Linux Docker
Docker安装和卸载
一:卸载旧版本 老版本的Docker被称为docker或docker-engine。如果安装了这些,请卸载它们以及相关的依赖项。 $ sudo yum remove docker \ docker-common \ docker-selinux \ docker-engine 如果yum报告说没有安装这些软件包,那么也行。
19907 0
|
JSON 自然语言处理 数据处理
数据标注工具 Label-Studio
数据标注工具 Label-Studio
3867 0
|
Nacos Java Spring
nacos jar包运行问题之报错如何解决
Nacos是一个开源的、易于部署的动态服务发现、配置管理和服务管理平台,旨在帮助微服务架构下的应用进行快速配置更新和服务治理;在实际运用中,用户可能会遇到各种报错,本合集将常见的Nacos报错问题进行归纳和解答,以便使用者能够快速定位和解决这些问题。
663 113
nacos jar包运行问题之报错如何解决
|
11月前
|
存储 供应链 分布式数据库
深入理解区块链技术:原理、应用与挑战
本文旨在探讨区块链技术的基本原理、主要应用及其面临的挑战。通过分析区块链的分布式账本技术、加密算法和共识机制,我们揭示了其如何在无需中心化权威的情况下确保数据的不可篡改性和透明性。此外,文章还讨论了区块链在金融、供应链管理、智能合约等领域的应用案例,并指出了当前区块链技术面临的可扩展性、隐私保护和法律监管等挑战。通过对这些内容的深入分析,我们希望为读者提供一个全面而深入的区块链技术概览。
1404 16
|
11月前
|
存储 安全 测试技术
GoLang协程Goroutiney原理与GMP模型详解
本文详细介绍了Go语言中的Goroutine及其背后的GMP模型。Goroutine是Go语言中的一种轻量级线程,由Go运行时管理,支持高效的并发编程。文章讲解了Goroutine的创建、调度、上下文切换和栈管理等核心机制,并通过示例代码展示了如何使用Goroutine。GMP模型(Goroutine、Processor、Machine)是Go运行时调度Goroutine的基础,通过合理的调度策略,实现了高并发和高性能的程序执行。
598 29
|
Python
python生成excel文件的三种方式
python生成excel文件的三种方式
353 1
python生成excel文件的三种方式
|
存储 算法 Java
【干货】如何写一篇还算凑活的博客文章
本文从程序员的角度出发,分享了作者参加掘金启航计划并获得奖品的经历,通过实际写作流程,详细介绍了构思、撰写、美化文章及发布到各大平台的技巧与心得,旨在激发博友们的写作热情。文中还推荐了一些实用的辅助工具和博客平台。
266 0
【干货】如何写一篇还算凑活的博客文章
|
自然语言处理 数据挖掘 BI
数据标注工具 doccano | 文本分类(Text Classification)
数据标注工具 doccano | 文本分类(Text Classification)
540 1
|
机器学习/深度学习 人工智能 并行计算
AI风口,算力无忧!
随着AI/ML技术的快速发展,各行各业在实际的应用场景中对计算资源的需求量越来越大,各大云厂商也是积极部署其IaaS资源,其中GPU是加速计算中最为关键需求之一。笔者将从新手体验性的使用到进阶体验,带领大家快速使用阿里云GPU云服务器,体验官方提供的八大场景。在后续的进阶体验中,教大家构建自己的大语言模型,如ChatGLM-6B。
21473 19
AI风口,算力无忧!
|
存储 安全 Linux
深入理解 Linux 用户和用户组的基本概念 + 相关命令 (一篇就够)
深入理解 Linux 用户和用户组的基本概念 + 相关命令 (一篇就够)
439 2