使用doccano进行命名实体识别NER数据标注-开发者社区-阿里云

数据标注工具 doccano | 命名实体识别（Named Entity Recognition，简称NER）

2024-06-26 1178

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 标注数据保存在同一个文本文件中，每条样例占一行且存储为json格式，其包含以下字段• id: 样本在数据集中的唯一标识ID。• text: 原始文本数据。• entities: 数据中包含的Span标签，每个Span标签包含四个字段：• id: Span在数据集中的唯一标识ID。• start_offset: Span的起始token在文本中的下标。• end_offset: Span的结束token在文本中下标的下一个位置。• label: Span类型。• relations: 数据中包含的Relation标签，每个Relation标签包含四个字段：• id: (Span

命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定意义的实体。在开放域信息抽取中，抽取的类别没有限制，用户可以自己定义。

安装

详见：数据标注工具 doccano | 文本分类（Text Classification）

数据准备

上传的文件为txt格式，每一行为一条待标注文本，示例:

corpus.txt 随便找了几个，一般都是垂直领域的数据标注

（右肝肿瘤）肝细胞性肝癌（II-III级，梁索型和假腺管型），肿瘤包膜不完整，紧邻肝被膜，侵及周围肝组织，未见脉管内癌栓（MVI分级：M0级）及卫星子灶形成。（肿物1个，大小4.2×4.0×2.8cm）。
患者20天前无明显诱因出现左侧胸背部持续性疼痛，于2025.02.01下城区中西医结合医院查胸部CT平扫示：右下肺少许炎症；肺气肿；慢性胰腺炎；建议追踪复查
双肺透亮度可，左下肺背段见一类圆开/结节影，大小约27X28mm,周围可见片状密度增高影，病变局部与胸膜粘连