信息抽取的介绍

简介: 信息抽取的介绍

前言


信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。


一、信息抽取的相关概念介绍


非结构化数据:诸如图片、文本、video、音频等数据,需要加以处理才能被模型训练。

抽取实体: 人、地名、时间,比如医疗领域:蛋白质、疾病、药物等等。

抽取关系:位于、工作在、部分等。

指代消解:判断一个代词具体是指向哪个实体。

命名实体识别(NER):识别文本中具有特定意义的实体。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等,但是之后出现的BILSTM-CRF效果要远好于之前的常用模型,并且成为目前基于深度学习的NER方法中的最主流模型。

NER评估方法:精确率/召回率,F1-score。


二、命名实体识别(NER)所使用的方法


2-1、利用规则

1、利用一个制定好的规则

2、利用已经定义好的词典

2-2、投票模型

即统计每个单词的实体类型,记录针对于每个单词,概率最大的实体类型。

2-3、利用分类模型

非时序模型:逻辑回归、SVM

时序模型:HMM,CRF,LSTM-CRF


参考文章:

信息抽取——关系抽取.


总结

相关文章
|
7月前
|
存储 SQL 定位技术
ArcGIS三种筛选提取要素的方法
ArcGIS三种筛选提取要素的方法
701 0
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
5天前
|
机器学习/深度学习 自然语言处理 关系型数据库
第2章 知识抽取:概述、方法
第2章 知识抽取:概述、方法
第2章 知识抽取:概述、方法
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能语音数据标注信息
人工智能语音数据标注信息
62 1
|
10月前
|
自然语言处理
|
9月前
|
机器学习/深度学习 自然语言处理
【论文速递】ACL 2022 - 查询和抽取:将事件抽取细化为面向类型的二元解码
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
91 1
|
11月前
|
Perl
提取信息
提取信息
|
XML 存储 JSON
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
|
JSON 自然语言处理 数据挖掘
4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
|
存储 人工智能 JSON
基于TaskFlow法研杯 LAIC2022 【犯罪事实实体识别】
基于TaskFlow法研杯 LAIC2022 【犯罪事实实体识别】
366 0
基于TaskFlow法研杯 LAIC2022 【犯罪事实实体识别】