浅析命名实体识别(NER)的三种序列标注方法

简介: 简述序列标注序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。

简述序列标注


序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。


简述命名实体识别


命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。


命名实体识别的作用


命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。


命名实体识别的过程组成


命名实体识别通常包括两部分:

  1. 实体边界识别;
  2. 确定实体类别(人名、地名、机构名或其他)。


简述标签类型


进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示:

类型 说明
B Begin,代表实体片段的开始
I Internediate,代表实体片段的中间
M Middle,代表实体片段的中间
E End,代表实体片段的结束
S Single,代表实体片段为单个字
O Other,代表字符不为任何实体

简述序列标注的三种方法


实体识别三种常见的序列标注方法如下:

  1. BIO:标识实体的开始,中间部分和非实体部分
  2. BMES:增加S单个实体情况的标注
  3. BIOSE:增加E实体的结束标识


BIO-三位序列标注法(B-begin,I-inside,O-outside)

  • B-X代表实体X的开头
  • I-X代表实体X的中间或结尾
  • O代表不属于任何类型的

样例:

我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 , O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O
复制代码


BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)

  • B表示一个词的词首位值
  • M表示一个词的中间位置
  • E表示一个词的末尾位置
  • S表示一个单独的字词

样例:

我 S
 是 S
 四 B
 川 M
 人 E
复制代码


BIOES-四位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)

  • B表示开始
  • I表示内部
  • O表示非实体
  • E表示实体尾部
  • S表示改词本身就是一个实体

样例:

我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 , O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O
复制代码


总结


基本简单讲述了实体识别三种标注方法,从上面我们可以看出序列标注的各种标注方法大同小异。


相关文章
|
12天前
|
自然语言处理
有关“RaNER命名实体识别-中文-新闻领域-base模型的命名实体识”的个人小建议
当新闻中出现不具体人名(如范某)时,建议模型能正确提取;对于含名词的非特殊名称(如“七块熹平石经”),建议不提取;此外,模型应解决去重问题,或给出词频。
|
3月前
|
自然语言处理 算法 Windows
HanLP — 命名实体识别
HanLP — 命名实体识别
60 1
|
机器学习/深度学习 算法 计算机视觉
【多标签文本分类】层次多标签文本分类方法
【多标签文本分类】层次多标签文本分类方法
728 0
【多标签文本分类】层次多标签文本分类方法
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
100 0
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
|
人工智能 自然语言处理 Python
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
|
XML 存储 数据处理
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
|
机器学习/深度学习 JSON 自然语言处理
[信息抽取]基于ERNIE3.0的多对多信息抽取算法:属性关系抽取
本项目讲解了基于ERNIE信息抽取技术,对属性和关系的抽取涉及多对多抽取,主要是使用可ERNIEKIT组件,整体效果非常不错,当然追求小样本学习的可以参考之前UIE项目或者去官网看看paddlenlp最新的更新,对训练和部署进行了提速。
|
机器学习/深度学习 自然语言处理 算法