【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
简介: 什么是基于深度学习的文本信息抽取?**信息抽取 (Information Extraction)** 是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始数据,输出的是固定格式的信息点,即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功......

1.1技术背景——什么是基于深度学习的文本信息抽取

信息抽取 (Information Extraction) 是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始数据,输出的是固定格式的信息点,即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功,循环神经网络(RNN)和卷积神经网络(CNN)也被用于信息抽取研究领域,基于深度学习的信息抽取技术也应运而生。

信息抽取的三大任务:

  • 实体抽取(Named Entity Recognition,NER)
  • 关系抽取 (Relation extraction,RE)
  • 事件抽取 (Event extraction, EE)
  • 信息抽取技术的评价指标主要是:

针对特定领域的抽取结果,一般通过计算对应的准确率(Precision)、召回率(Recall)和F1值来评价。对应的计算为:

准确率(precision):是提取出的信息中正确预测的信息的数量与全部提取出的信息数量的比。

image.png

召回率(recall): 是提取出来的正确预测的信息与测试数据集所有信息的比。

image.png

F1值是准确率和召回率的调和平均值

image.png

其中,数据有2种类型:测试集数据和预测结果数据,对一批测试数据进行预测,一般可以将抽取的结果分成4种:

(1)TP (true positive),原本是正类,预测结果为正类(正确预测为正类)。

(2)FP(false positive),原本是负类,预测结果为正类(错误预测为正类)。

(3)TN (true negative),原本是负类,预测结果为负类(正确预测为负类)。

(4)FN (false negative),原本是正类,预测结果为负类(错误预测为负类)。


1.1.1基于深度学习的实体抽取

实体抽取即命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、位置、组织、专有名词等。
通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。
NER是信息检索、问答、机器翻译等各种下游应用的重要预处理步骤。

早期的NER系统在设计特定领域的特性和规则时,在耗费大量人工的情况下,取得了良好地性能。近年来,通过非线性处理实现连续实值向量表示和语义合成的深度学习已被应用于NER系统,产生了最先进的性能。

随着深度学习技术的发展,CNN、RNN、LSTM-CRF、GRU等方法被应用到NER领域。19年BERT出现之后,BERT-BiLSTM-CRF的模型成为NER领域最合适的模型。

中文NER已发展十几年时间,但由于汉字的一些特性,中文NER仍要比英文NER复杂的多。
中文命名实体识别的难点主要存在于:

1.中文文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词。
2.中文分词和命名实体识别互相影响。
3.除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。
4.现代中文文本,尤其是网络中文文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体。
5.不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。

1.1.2基于深度学习的关系抽取

关系抽取是信息抽取的一个重要子任务。关系抽取就是通过对原始数据建模,从原始数据中自动抽取实体对之间的语义关系,提取出有效的语义关系。

关系抽取将文本中的无结构化的信息转化为结构化的信息存储在知识库中,为之后的智能检索和语义分析提供了一定的支持和帮助。研究人员利用关系抽取技术,从无结构化的自然语言文本中抽取出格式统一的实体关系,便于海量数据的处理;将分析出的多个实体之间的语义关系和实体进行关联,促进了知识库的自动构建;对用户查询意图进行理解和分析,提高了搜索引擎的检索效率等。综上所述,关系抽取技术不仅具有理论意义,还具有十分广阔的应用前景

基于深度学习的关系抽取分为有监督的方法和远程监督的方法,其中有监督的方法又可以分为流水线(pipeline)和联合学习(joint learning)的方法。在众多方法中表现较好的方法有:PCNN+MLL、LSTM以及基于PCNN的注意力机制的方法等。

相比于模式匹配和传统机器学习的方法,深度学习方法优势明显。基于深度学习的方法可以在神经网络模型中自动学习特征,将低层特征进行组合,形成更加抽象的高层特征,用来寻找数据的分布式特征表示。传统方法提取的特征和精心设计的内核都使用了预先存在的 NLP 系统,会导致下游各种模块的错误累积。而深度学习的方法能够避免人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题。

中文文本的关系抽取起步较晚,而且中文与英文等语言相差较大。中文语料库的建立需要经过中文分词、词性标注和句法分析等预处理,并且在处理的过程中会存在很多错误,这就导致中文实体关系抽取的效果也略差于英文关系抽取。

因此,中文领域的实体关系抽取研究具有较大的挑战性,主要存在3个特殊性:

1.中文的单元词汇边界模糊,缺少英文文本中 空格这样明确的分隔符,也没有明显的词形变换特征,因此容易造成许多边界歧义,从而加大了关系抽取的难度。
2.中文触发词抽取难度较大,且数目过多。中文自然语言处理底层技术研究还不够成熟,导致错误的级联。如在长句子的句法分析上,ACE 语料中大量出现词语个数大于30的长句子,句法分析效果较差。此外,中文触发词数目过多,导致关系抽取召回率较低。通过对语料的分析发现,由于中文词汇表达的多义性,对同一类事件,中文触发词的个数要远大于英文。
3.中文存在多义性、句式复杂表达灵活、多省略等特点。不同领域中的同一个词语表示的意思并不一样,或者同一种语义可能存在多种表达形式。此外,由于互联网的快速发展,网络文本中的文字描述更加个性化,许多词语具有不同意义,中文命名实体在不同语境下被赋予了不同的意义(如高富帅、黑天鹅等),使得关系类型的识别更为困难。

1.1.3基于深度学习的事件抽取

信息抽取IE ( Information Extraction) 中,事件作为一种特定的信息形式,是指在某一时间、某一地点发生的某件事的具体发生,涉及一个或多个参与者,通常可以描述为状态的变化,一般是句子级的。事件抽取任务旨在将此类事件信息从非结构化纯文本中提取为结构化形式,主要描述现实世界中发生的事件的“谁(who)、何时(when)、何地(where)、什么(what)、为什么(why)”和“如何(how)”。 在应用方面,该任务便于人们检索事件信息和分析人们的行为,引发信息检索、推荐、、智能问答、知识图谱构造和其他应用程序。

根据ACE2005评估会议描述,组成事件的各元素包括: 触发词(event trigger)、事件类型(event type)、论元(event argument)及论元角色(argument role)。事件抽取任务可分解为4 个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

近年来表现较好的基于深度学习的事件抽取方法主要有:DMCNN(Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks)、JRNN(Joint Event Extraction via Recurrent Neural Networks)、PLMEE(Pre-trained Language Model based Event Extractor)等

相比于模式匹配和传统机器学习的方法,深度学习方法优势明显:

1.减少对外部 NLP 工具的依赖 , 甚至不依赖 NLP 工具 , 建立成端对端的系统
2.使用词向量作为输入,蕴含更为丰富的语义特征
3.能自动提取句子特征,避免了人工特征选择和设计的繁琐工作
4.学习更多抽象的数学特征,并使数据具有更好的特征表达,从而实现文本事件的有效抽取

信息抽取技术已有多年的研究发展并取得了丰硕的成果,但如今还是有不少的挑战需要攻克,合合信息认为以下几点会是信息抽取技术发展的重要方向:

端到端的模型,基于深度学习的端到端自主学习模型是一个值得研究和探索的方向
One-shot甚至zero-shot的学习模型,在符合训练标准的数据样本极少的情况下仍能训练出高效的模型
迁移学习的能力,使用当前现有的模型去完成新的文本理解任务或是学习完全没见过的数据样本,有效地将知识从一个领域转移到另一个领域。


参考文献:

  • Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition,” IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
  • Animashree Anandkumar,“Deep Active Learning for Named Entity Recognition,” in Proceedings of the 2nd Workshop on Representation Learning for NLP, pages 252–256,
  • Arya Roy “Recent Trends in Named Entity Recognition (NER),” arXiv:2101.11420v1 [cs.CL] 25 Jan 2021
  • 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
  • Yanyao Shen,Hyokun Yun ,Zachary C. Lipton ,Yakov Kronrod and Shantanu Kumar,”A Survey of Deep Learning Methods for Relation Extraction,“ arXiv:1705.03645v1 [cs.CL] 10 May 2017
  • Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction: Approaches and Applications,“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
目录
打赏
0
0
0
0
0
分享
相关文章
OCR技术:数字化办公的“隐形助手”
在数字化办公时代,OCR(光学字符识别)技术如同一位“隐形助手”,将纸质文档转化为可编辑的电子文本,大幅提升工作效率与准确性。它不仅革新了文档处理方式,还通过智能化应用实现票据识别、客户信息录入等功能,助力财务和CRM系统自动化。此外,OCR技术能挖掘文档数据价值,支持决策分析,并可通过个性化定制满足跨语言协作或内容搜索等需求。开发者可结合自然语言处理、机器学习等技术,探索更多创新应用场景,如智能文档管理和内容可视化工具。OCR技术正以高效、智能的方式,推动办公流程全面升级,激发无限可能。
144 57
OCR技术:解锁文字识别的无限可能
OCR(光学字符识别)技术是数字化浪潮中的关键工具,可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正,全面解析OCR技术的原理,并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来,OCR将与自然语言处理、计算机视觉等技术深度融合,推动智能化和综合化发展。通过开放生态系统和政策支持,开发者可探索更多创新场景,如古籍数字化、盲人阅读等,为社会带来更多价值。
228 57
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
440 64
计算机视觉五大技术——深度学习在图像处理中的应用
基于多模态感知与深度学习的智能决策体系
本系统采用“端-边-云”协同架构,涵盖感知层、计算层和决策层。感知层包括视觉感知单元(800万像素摄像头、UWB定位)和环境传感单元(毫米波雷达、TOF传感器)。边缘侧使用NVIDIA Jetson AGX Orin模组处理多路视频流,云端基于微服务架构实现智能调度与预测。核心算法涵盖人员行为分析、环境质量评估及路径优化,采用DeepSORT改进版、HRNet-W48等技术,实现高精度识别与优化。关键技术突破包括跨摄像头协同跟踪、小样本迁移学习及实时推理优化。实测数据显示,在18万㎡商业体中,垃圾溢流检出率达98.7%,日均处理数据量达4.2TB,显著提升效能并降低运营成本。
121 7
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
76 8
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
466 6
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
如何结合NLP(自然语言处理)技术提升OCR系统的语义理解和上下文感知能力?
通过结合NLP技术,提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别,并通过BERT模型进行语义理解和纠错,最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
### 简介 【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件,方便高效处理大量图片。然而,OCR 技术面临字符识别错误(如形近字混淆、生僻字识别不佳)、格式错误(段落错乱、换行问题)和语义理解错误等挑战。为提高准确性,建议提升图片质量、选择合适的 OCR 软件及参数,并结合自动校对与人工审核,确保最终文本的正确性和完整性。
597 12
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
深度学习在数据备份与恢复中的新视角:智能化与效率提升
深度学习在数据备份与恢复中的新视角:智能化与效率提升
242 19
利用深度学习进行系统健康监控:智能运维的新纪元
利用深度学习进行系统健康监控:智能运维的新纪元
263 30

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问