自然语言处理 Paddle NLP - 信息抽取技术及应用

简介: 自然语言处理 Paddle NLP - 信息抽取技术及应用

1.什么是信息抽取

即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)

2.实体抽取

3.关系抽取

4.事件抽取

信息抽取和知识图谱是一个上下游的关系。抽取的结果,可以组装成知识图谱(一种存储知识的结构)

医疗、金融、法律,三大行业用得比较多

从问诊中抽取信息

贷款审核,大量的纸质、DPF文件,需要将里面的信息进行匹配审核

根据抽取结果在不在原文中对信息抽取分类

这次我们只关注抽取式,不在原文中的情况需要参考生成方法

  • 抽取式:结果在原文中
  • 生成式:结果不在原文中,如果生成的结果需要一个知识做为辅助,就需要知识图谱,很多时候不需要知识图谱

抽取式分类

  • 实体抽取
  • 关系抽取
  • 事件抽取

信息抽取的通用评测指标,所有的信息抽取都可以用它评

Precision:抽取出来的结果,抽出来10个,5个对的,就是 50%

Recall:关注模型漏了哪些东西,指标0~1,数值越高,模型越好

F1:Precision和Recall的综合平均,是两个的综合反映

抽取模型的关键要素:解码设计

实体抽取

从一段文本中抽取出文本内容,并识别为预定义的类别

一般是 BIO 解码方式 + CRF 模型结构

复杂的实体抽取,无法用 BIO 直接解决(用到关系抽取)

复杂实体抽取中的问题1:重叠嵌套

复杂实体抽取中的问题2:不连续

关系抽取

从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)

关系分类是关系抽取的第二步

解码设计

训练集需要人工标注或其它标注

简单关系抽取

复杂关系抽取,将 CRF 升级成 Sigmoid,判断大于 0.5 是一个类别,小于则不是

实体对组合

效果最好的模型,可以预测很多个类别

SPO 主谓宾

事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素,组合为相应的结构化信息除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以拆成关系抽取

视频:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461929&sharedType=2&sharedUserId=2631487&ts=1687255180562

课件:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1567901&sharedType=2&sharedUserId=2631487&ts=1687255251418

实践视频:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461933&sharedType=2&sharedUserId=2631487&ts=1687255270609

实践代码:https://aistudio.baidu.com/aistudio/projectdetail/1978303?sUid=2631487&shared=1&ts=1687255348900

『基于深度学习的自然语言处理』:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedType=1&sharedUserId=2631487&ts=1687255213292

目录
相关文章
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
533 20
|
9月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
人工智能 自然语言处理 API
用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程
UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。
5244 17
用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程
|
文字识别 自然语言处理 API
如何结合NLP(自然语言处理)技术提升OCR系统的语义理解和上下文感知能力?
通过结合NLP技术,提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别,并通过BERT模型进行语义理解和纠错,最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。
1014 4
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
547 16
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
844 17
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
随着人工智能技术的不断发展,自然语言处理(NLP)已经成为了一个重要的应用领域。本文将介绍一些常见的NLP任务和算法,并通过代码示例来展示如何实现这些任务。我们将讨论文本分类、情感分析、命名实体识别等常见任务,并使用Python和相关库来实现这些任务。最后,我们将探讨NLP在未来的发展趋势和挑战。
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
本文旨在揭示人工智能技术如何革新自然语言处理领域。我们将从基础的文本分析到复杂的情感识别,逐步深入探讨AI如何提升语言理解的准确性和效率。文章将通过实际代码示例,展示AI技术在自然语言处理中的应用,并讨论其对日常生活的潜在影响。读者将获得关于AI技术在理解和生成自然语言方面的实用知识,以及如何将这些技术应用于解决现实世界问题的见解。
329 5
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
2287 1
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!

热门文章

最新文章