数据标注工具 doccano | 文本分类(Text Classification)

简介: 数据标注工具 doccano | 文本分类(Text Classification)

目录

数据标注工具 Label-Studio

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量)

安装

打开命令行(cmd、terminal)执行安装命令

# Python 3.8+
pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simple

运行 doccano

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init
#创建用户名及密码;例如现在有一个主管admin,1个标注员vipsoft
doccano createuser --username admin --password 123456
doccano createuser --username vipsoft --password 123456
#开启doccano服务
doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

# In another terminal, run the command:
doccano task

重运行 doccano

#开启doccano服务
doccano webserver

另打开一个新的命令行,执行下列命令

# In another terminal, run the command:
doccano task

打开 doccanno

在浏览器里输入:http://localhost:8000/ 支持中文,挺好

输入用户名密码:

创建项目

适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务

适配文本分类、句子级情感倾向分类等任务。

创建分类式任务

如图点击Create按钮。根据需要选择合适的项目类别,这里选择 文本分类 Text Classification

上传数据

实验数据下载:https://hidadeng.github.io/blog/doccano_text_anotation/data.csv

上传数据

下面的 review 对应 csv 里的列

定义标签

击左侧菜单中的“Labels”按钮来定义我们的标签。我们看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。

添加成员

点击左侧目录中的 Members 按钮,然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。如果没有可供选择的成员,记得创建成员。doccano createuser --username tom --password 123456

开始标注

点击导航栏中的Start annotation按钮,开始对文档进行批注了

点完下一条,Complete 完成状态没有反映不知道为什么,不影响使用暂时没管它

导出数据

到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。

查看数据

import pandas as pd
df = pd.read_csv('all.csv')
df

统计

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量)

目录
相关文章
|
机器学习/深度学习 自然语言处理 数据处理
什么是数据标注
什么是数据标注
6704 0
|
7月前
|
应用服务中间件 网络安全 nginx
手把手教你使用 Docker 部署 Nginx 教程
本文详解Nginx核心功能与Docker部署优势,涵盖镜像拉取、容器化部署(快速、挂载、Compose)、HTTPS配置及常见问题处理,助力高效搭建稳定Web服务。
3490 4
|
存储 JSON 自然语言处理
数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)
标注数据保存在同一个文本文件中,每条样例占一行且存储为json格式,其包含以下字段 • id: 样本在数据集中的唯一标识ID。 • text: 原始文本数据。 • entities: 数据中包含的Span标签,每个Span标签包含四个字段: • id: Span在数据集中的唯一标识ID。 • start_offset: Span的起始token在文本中的下标。 • end_offset: Span的结束token在文本中下标的下一个位置。 • label: Span类型。 • relations: 数据中包含的Relation标签,每个Relation标签包含四个字段: • id: (Span
1086 0
|
存储 JSON 自然语言处理
数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)
数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)
495 1
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
5438 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
Java 应用服务中间件 Linux
【Docker容器化技术】docker安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库
本文主要讲解了Docker的安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库以及Docker容器虚拟化与传统虚拟机比较。
14756 37
【Docker容器化技术】docker安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库
|
JSON 自然语言处理 数据处理
数据标注工具 Label-Studio
数据标注工具 Label-Studio
7481 0
|
人工智能 JSON 算法
不是吧?这么好用的开源标注工具,竟然还有人不知道…
LabelU是一款专为AI项目设计的强大多模态数据标注工具,支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项,让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作,以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全,也提供在线版本方便快速上手。此外,OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具,进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情,并为这些优秀工具点赞支持!
2368 0
不是吧?这么好用的开源标注工具,竟然还有人不知道…

热门文章

最新文章