文档备案控制台

开发者社区人工智能文章正文

数据标注工具 doccano | 命名实体识别（Named Entity Recognition，简称NER）

2024-08-16 530

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据标注工具 doccano | 命名实体识别（Named Entity Recognition，简称NER）

目录

创建抽取式任务

构建抽取式任务标签

任务标注

命名实体识别

命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定意义的实体。在开放域信息抽取中，抽取的类别没有限制，用户可以自己定义。

安装

详见：数据标注工具 doccano | 文本分类（Text Classification）

数据准备

上传的文件为txt格式，每一行为一条待标注文本，示例:

corpus.txt 随便找了几个，一般都是垂直领域的数据标注

（右肝肿瘤）肝细胞性肝癌（II-III级，梁索型和假腺管型），肿瘤包膜不完整，紧邻肝被膜，侵及周围肝组织，未见脉管内癌栓（MVI分级：M0级）及卫星子灶形成。（肿物1个，大小4.2×4.0×2.8cm）。
患者20天前无明显诱因出现左侧胸背部持续性疼痛，于2025.02.01下城区中西医结合医院查胸部CT平扫示：右下肺少许炎症；肺气肿；慢性胰腺炎；建议追踪复查
双肺透亮度可，左下肺背段见一类圆开/结节影，大小约27X28mm,周围可见片状密度增高影，病变局部与胸膜粘连

创建项目

UIE 支持抽取与分类两种类型的任务，根据实际需要创建一个新的项目：

抽取式任务项目创建

适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务

分类式任务项目创建

适配文本分类、句子级情感倾向分类等任务。

创建抽取式任务

上传

NOTE：doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式，UIE定制训练中统一使用TextLine这一文件格式，即上传的文件需要为txt格式，且在数据标注时，该文件的每一行待标注文本显示为一页内容。

定义标签

构建抽取式任务标签

抽取式任务包含Span与Relation两种标签类型，Span指原文本中的目标信息片段，如实体识别中某个类型的实体，事件抽取中的触发词和论元；Relation指原文本中Span之间的关系，如关系抽取中两个实体（Subject&Object）之间的关系，事件抽取中论元和触发词之间的关系。

以 corpus.txt 中的第一条数据为例(医疗场景-专病结构化):

任务标注

命名实体识别

导出数据

选择导出的文件类型为JSONL(relation)，导出数据示例：

查看数据

标注数据保存在同一个文本文件中，每条样例占一行且存储为json格式，其包含以下字段

id: 样本在数据集中的唯一标识ID。
text: 原始文本数据。
entities: 数据中包含的Span标签，每个Span标签包含四个字段：

id: Span在数据集中的唯一标识ID。
start_offset: Span的起始token在文本中的下标。
end_offset: Span的结束token在文本中下标的下一个位置。
label: Span类型。

relations: 数据中包含的Relation标签，每个Relation标签包含四个字段：

id: (Span1, Relation, Span2)三元组在数据集中的唯一标识ID，不同样本中的相同三元组对应同一个ID。
from_id: Span1对应的标识ID。
to_id: Span2对应的标识ID。
type: Relation类型。

应用实例

PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量）

文章标签：

自然语言处理

数据处理

知识图谱

存储

JSON

VipSoft

目录

相关文章

iOS开发欢乐使者

|

移动开发前端开发安全

最强大的 iOS 应用源码保护工具：Ipa Guard，保护你的商业机密代码

最强大的 iOS 应用源码保护工具：Ipa Guard，保护你的商业机密代码

iOS开发欢乐使者

693 0 0

技术小达人

|

JSON 前端开发 JavaScript

开源表单方案 Formily 的核心设计思路

Formily 是一个数据+协议驱动的表单解决方案，它站在Reactive响应式编程巨人的肩膀上，构建出了从基础表单到低代码领域的高性能通用基础能力，同时其配套的跨框架+跨终端组件生态体系，也能让用户更高效的开发日常业务表单，尽可能的减少了重复冗余的逻辑实现。本篇内容来自白玄在第十六届D2前端技术论坛的分享，将为你介绍如何在高复杂业务场景下提高我们的表单性能与表单开发效率。

技术小达人

6925 1 1

开源表单方案 Formily 的核心设计思路

游客43d6l5svxhm72

|

1月前

|

机器学习/深度学习 IDE 数据挖掘

2026最新Jupyter Notebook安装使用保姆级教程（附安装包+图文步骤）

Jupyter Notebook是基于网页的交互式编程工具，支持Python、R等数十种语言。以单元格为单位执行代码，即时显示结果，融合代码、文字与图表，适合数据分析、教学及报告编写。推荐通过Anaconda一键安装。

游客43d6l5svxhm72

1568 2 3

翼龙云TG_yilongcloud

|

8月前

|

存储弹性计算运维

阿里云渠道商：如何使用阿里云镜像服务？

阿里云镜像服务可快速创建、复制、共享ECS镜像，实现批量部署与环境一致性，支持系统备份恢复，提升运维效率。适用于大促扩容、环境复制等场景。

翼龙云TG_yilongcloud

505 0 0

翼龙云TG_yilongcloud

|

10月前

|

网络安全云计算

如何设置阿里云轻量应用服务器镜像？

本文介绍了在阿里云轻量应用服务器上创建与配置镜像的详细步骤。镜像是一种特殊的文件系统映射，可用于快速克隆服务器配置。内容涵盖准备条件、登录控制台、创建实例、生成镜像、下载与设置镜像，以及如何使用镜像启动新实例。适合希望提升服务器部署效率的用户参考。

翼龙云TG_yilongcloud

845 3 3

VipSoft

|

自然语言处理数据挖掘 BI

数据标注工具 doccano | 文本分类（Text Classification）

数据标注工具 doccano | 文本分类（Text Classification）

VipSoft

1200 1 1

杭州奥零数据科技

|

存储监控 NoSQL

【亲测有用】数据中台元数据管理能力演示

杭州奥零数据科技有限公司成立于2023年，专注于数据中台业务，维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务，支持AI大模型应用，助力企业高效利用数据价值。

杭州奥零数据科技

364 3 3

码农小达人

|

数据采集编解码缓存

通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成

通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成

码农小达人

3297 0 0

楠竹11

|

人工智能自然语言处理算法

更快、更强、更经济！港大开源大模型RAG系统LightRAG

香港大学研究团队推出LightRAG，一款新型检索增强生成系统。LightRAG通过引入图结构优化文本索引和检索，克服了传统RAG系统在上下文感知、数据表示和更新效率方面的局限。其双级检索系统、图结构与向量表示的融合及增量更新算法，显著提升了检索准确性和效率，适用于智能客服、知识问答和智能搜索等多个领域。

楠竹11

912 3 3

热门文章

最新文章

【AD速成】半小时入门AltiumDesigner之绘制原理图(四)

为什么文件名要小写？

【校招面经】“学完C语言” · 这些高频面试考点你都掌握了吧~

死锁问题的描述和代码体现

Java 多线程：线程池实现原理

无密码登陆

在自己的豆瓣首页上增加最近的博客内容

开源框架:SDWebImage

字典树专题【完结】

WinForm企业应用框架设计【三】框架窗体设计；动态创建菜单；

【剪映小助手】音频时间线计算接口（Audio Timelines）

水下目标检测数据集：11类海洋渔具及垃圾 | 目标检测

构建全栈技术思维：从底层原理到 AI 工程化的实战演进

阿里云Linux云服务器部署Go项目：从环境配置到生产级服务全流程指南

微调LocateAnything-3B 实现超高密度的目标检测

给 AI Agent 加记忆之前，先决定它到底允许记住什么

阿里云OSS从零到一完全对接指南：开通、配置、SDK集成与成本优化

阿里云宜搭对接使用完全指南：从连接到集成的全方位解析

阿里云RDS读写分离深度解析：从原理到性能优化的完整实践指南

阿里云智能接入网关对接使用完全指南：从硬件部署到混合云互联

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

小红书笔记详情API深度解析与实战指南（2025年最新版）