数据标注工具 doccano | 文本分类(Text Classification)

简介: 数据标注工具 doccano | 文本分类(Text Classification)

目录

数据标注工具 Label-Studio

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量)

安装

打开命令行(cmd、terminal)执行安装命令

# Python 3.8+
pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simple

运行 doccano

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init
#创建用户名及密码;例如现在有一个主管admin,1个标注员vipsoft
doccano createuser --username admin --password 123456
doccano createuser --username vipsoft --password 123456
#开启doccano服务
doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

# In another terminal, run the command:
doccano task

重运行 doccano

#开启doccano服务
doccano webserver

另打开一个新的命令行,执行下列命令

# In another terminal, run the command:
doccano task

打开 doccanno

在浏览器里输入:http://localhost:8000/ 支持中文,挺好

输入用户名密码:

创建项目

适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务

适配文本分类、句子级情感倾向分类等任务。

创建分类式任务

如图点击Create按钮。根据需要选择合适的项目类别,这里选择 文本分类 Text Classification

上传数据

实验数据下载:https://hidadeng.github.io/blog/doccano_text_anotation/data.csv

上传数据

下面的 review 对应 csv 里的列

定义标签

击左侧菜单中的“Labels”按钮来定义我们的标签。我们看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。

添加成员

点击左侧目录中的 Members 按钮,然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。如果没有可供选择的成员,记得创建成员。doccano createuser --username tom --password 123456

开始标注

点击导航栏中的Start annotation按钮,开始对文档进行批注了

点完下一条,Complete 完成状态没有反映不知道为什么,不影响使用暂时没管它

导出数据

到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。

查看数据

import pandas as pd
df = pd.read_csv('all.csv')
df

统计

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量)

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
ARTIST的中文文图生成模型问题之在EasyNLP中使用ARTIST模型的问题如何解决
ARTIST的中文文图生成模型问题之在EasyNLP中使用ARTIST模型的问题如何解决
|
自然语言处理 安全 数据挖掘
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
文本分类任务是自然语言处理中最常见的任务,文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等各类日常或专业领域中。 文本分类任务可以根据标签类型分为**多分类(multi class)、多标签(multi label)、层次分类
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
|
人工智能 自然语言处理 搜索推荐
NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
 NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
|
人工智能 自然语言处理 PyTorch
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
|
存储 数据采集 自然语言处理
【BERT-多标签文本分类实战】之四——数据集预处理
【BERT-多标签文本分类实战】之四——数据集预处理
813 1
【BERT-多标签文本分类实战】之四——数据集预处理
|
存储 JSON 数据挖掘
3.基于Label studio的训练数据标注指南:文本分类任务
3.基于Label studio的训练数据标注指南:文本分类任务
3.基于Label studio的训练数据标注指南:文本分类任务
|
JSON 自然语言处理 数据挖掘
4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
641 0
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
|
机器学习/深度学习 Python
PU Learning简介:对无标签数据进行半监督分类
PU Learning简介:对无标签数据进行半监督分类
422 0
PU Learning简介:对无标签数据进行半监督分类
|
机器学习/深度学习 编解码 数据可视化
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
文章被2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:[https://ieeexplore.ieee.org/document/9157040/citations#citations](https://ieeexplore.ieee.org/document/9157040/citations#citations) CookGAN旨在解决因果关系效应。食物图像的因果演化隐含在一个连续的网络中。 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )