浅析命名实体识别(NER)的三种序列标注方法

简介: 简述序列标注序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。

简述序列标注


序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。


简述命名实体识别


命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。


命名实体识别的作用


命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。


命名实体识别的过程组成


命名实体识别通常包括两部分:

  1. 实体边界识别;
  2. 确定实体类别(人名、地名、机构名或其他)。


简述标签类型


进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示:

类型 说明
B Begin,代表实体片段的开始
I Internediate,代表实体片段的中间
M Middle,代表实体片段的中间
E End,代表实体片段的结束
S Single,代表实体片段为单个字
O Other,代表字符不为任何实体

简述序列标注的三种方法


实体识别三种常见的序列标注方法如下:

  1. BIO:标识实体的开始,中间部分和非实体部分
  2. BMES:增加S单个实体情况的标注
  3. BIOSE:增加E实体的结束标识


BIO-三位序列标注法(B-begin,I-inside,O-outside)

  • B-X代表实体X的开头
  • I-X代表实体X的中间或结尾
  • O代表不属于任何类型的

样例:

我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 , O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O
复制代码


BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)

  • B表示一个词的词首位值
  • M表示一个词的中间位置
  • E表示一个词的末尾位置
  • S表示一个单独的字词

样例:

我 S
 是 S
 四 B
 川 M
 人 E
复制代码


BIOES-四位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)

  • B表示开始
  • I表示内部
  • O表示非实体
  • E表示实体尾部
  • S表示改词本身就是一个实体

样例:

我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 , O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O
复制代码


总结


基本简单讲述了实体识别三种标注方法,从上面我们可以看出序列标注的各种标注方法大同小异。


相关文章
|
机器学习/深度学习 监控 数据可视化
训练损失图(Training Loss Plot)
训练损失图(Training Loss Plot)是一种在机器学习和深度学习过程中用来监控模型训练进度的可视化工具。损失函数是衡量模型预测结果与实际结果之间差距的指标,训练损失图展示了模型在训练过程中,损失值随着训练迭代次数的变化情况。通过观察损失值的变化,我们可以评估模型的拟合效果,调整超参数,以及确定合适的训练停止条件。
2968 5
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
38425 184
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
别再说“AI听不懂人话”:从0到1手把手搭一个意图识别 + 槽位提取系统
别再说“AI听不懂人话”:从0到1手把手搭一个意图识别 + 槽位提取系统
491 11
|
数据可视化 Python
如何在Python中解决模块和包的依赖冲突?
解决模块和包的依赖冲突需要综合运用多种方法,并且需要团队成员的共同努力和协作。通过合理的管理和解决冲突,可以提高项目的稳定性和可扩展性
|
6月前
|
人工智能 自然语言处理 数据可视化
用Dify工作流打造你的AI测试智能体,效率提升500%
Dify助力测试智能化升级,通过可视化AI工作流实现测试用例自动生成,提升效率500%。告别手工编写,覆盖边界场景,降低维护成本,推动测试从“手工作坊”迈向自动化、智能化新时代,全面提升质量与交付速度。
|
缓存 自然语言处理 算法
大模型意图识别工程化实践
本文重点介绍大模型意图识别能力在智能电视核心链路中的落地过程和思考,对比了基础模型、RAG 、以及7b模型微调三种方案的优缺点。
5595 122
|
监控 安全 Linux
/proc/cpuinfo 中的各个字段,都代表什么意思
`/proc/cpuinfo` 在 Linux 中显示 CPU 指令集信息,包括浮点运算、V86模式、调试、大页支持、时间戳计数器等。列表详细解释了各种 FLAG,如 FPU、VME、PSE、TSC 等,涉及处理器硬件功能和指令集。还包括多媒体扩展(MMX、SSE、SSE2)、超线程(HT)、虚拟化技术(VMX)、加密指令(AES)、高级向量扩展(AVX)等特性。
|
安全 网络安全 数据安全/隐私保护
GoIP
GoIP “【5月更文挑战第15天】”
1252 2