句法敏感的实体表示用于神经网络关系抽取

简介: 信息抽取主要解决从海量文本中快速、准确地抽取出需求信息。关系抽取是信息抽取的关键技术之一,主要任务是从文本中识别出实体,并抽取实体间语义关系。把句法信息加入到实体的表示模型里是本文的创新之处和研究重点,下面,我们一起深入了解。

image


小叽导读:信息抽取主要解决从海量文本中快速、准确地抽取出需求信息。关系抽取是信息抽取的关键技术之一,主要任务是从文本中识别出实体,并抽取实体间语义关系。把句法信息加入到实体的表示模型里是本文的创新之处和研究重点,下面,我们一起深入了解。

作者:何正球,陈文亮,张梅山,李正华,张伟,张民

摘要

句法敏感的实体表示用于神经网络关系抽取。关系抽取任务大规模应用的一个主要瓶颈就是语料的获取。近年来基于神经网络的关系抽取模型把句子表示到一个低维空间。这篇论文的创新在于把句法信息加入到实体的表示模型里。首先,基于Tree-GRU,把实体上下文的依存树放入句子级别的表示。其次,利用句子间和句子内部的注意力,来获得含有目标实体的句子集合的表示。

研究背景和动机

关系抽取任务大规模应用的一个主要瓶颈就是语料的获取。远程监督模型通过将知识库应用于非结构化文本对齐来自动构建大规模训练数据,从而减轻对人工构建数据的依赖程度,并使得模型跨领域适应能力得到增强。然而,在利用远程监督构建语料的过程中,仅仅利用实体名称进行对齐,而不同实体在不同关系下应该具有更加丰富的多样的语义表示,从而导致错误标注等问题。因此,一套更加丰富的实体表示显得尤为重要。

另一方,基于语法信息的方法通常作用于两个实体之间的关系上,而语法信息是可以更加丰富实体的表示的。因此,本文基于句法上下文的实体表示来丰富实体在不同关系模式下的语义,并结合神经网络模型处理关系抽取任务。

相关工作介绍

我们把相关的工作大致分成早期基于远程监督的方法和近年来基于神经网络模型两类。

为了解决关系抽取任务严重依赖于标注语料的问题,Mintz et al.(2009)率先提出了基于远程监督的方法构建标注语料。然而,这样构建的自动标注语料含有大量的噪声。为了缓解语料中噪声带来的影响,Riedel et al.(2010)将关系抽取看成是一个多实例单类别的问题。进一步地,Hoffmannet al.(2011)和Surdeanu et al.(2012)采取了多实例多类别的策略。同时,采用最短依存路径作为关系的一个语法特征。上述方法典型的缺陷在于模型的性能依赖于特征模板的设计。

近年来,神经网络被广泛地应用于自然语言处理任务上。在关系抽取领域,Socher et al.(2012)采用循环神经网络来处理关系抽取。Zeng et al.(2014)则构建了端到端的卷积神经网络,进一步地,Zeng etal.(2015)假设多实例中至少有一个实例正确地表示了相应的关系。相比于假设有一个实例表示一对实体的关系,Linet al.(2016)通过注意力机制挑选正面的实例更充分地使用了标注语料含有的信息。

以上这些基于神经网络的方法大多数都使用词层次的表示来生成句子的向量表示。另一方面,基于语法信息的表示也受到了众多研究者的青睐,其中最主要的即最短依存路径(Miwa and Bansal(2016)和Cai et al.(2016))。

主要方法

image

首先,基于依存句法树,利用基于树结构的循环神经网络(Tree-GRU)模型生成实体在句子级别的表示。如上图所示,有别于仅仅使用实体本身,我们能够更好地表达出长距离的信息。具体的实体语义表示如下图所示。我们使用Tree-GRU来获得实体的语义表示。

image

其次,利用基于子节点的注意力机制(ATTCE,上图)和基于句子级别的实体表示注意力机制(ATTEE,下图)来减轻句法错误和错误标注的负面影响。

image

实验结果

image

本文在NYT语料上进行了实验。最终结果如上图所示。其中,SEE-CAT和SEE-TRAINS分别是本文使用的两种结合三种向量表示(句子的向量表示,两个实体的向量表示)的策略。从图中可以看出,本文提出的模型在相同数据集上取得了比现有远程监督关系抽取模型更好的性能。

总结

本文的实验结果表明,更丰富的命名实体语义表示能够有效地帮助到最终的关系抽取任务。

原文发布时间为:2018-08-16
本文作者:研读论文的
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能 ”,了解相关信息可以关注“阿里巴巴机器智能 ”。

相关文章
|
算法 安全 API
淘宝获得淘口令真实URL接口的技术解析
淘口令是淘宝的加密链接,用于商品推广。官方未提供直接解密API,但第三方工具或API能模拟解析。示例代码展示了如何通过第三方接口(需替换为真实接口)获取淘口令所对应的URL、标题和图片信息,但使用时需注意安全风险。
1074 2
|
IDE 开发工具 Python
selenium.common.exceptions.NoSuchDriverException: Message: Unable to obtain driver for MicrosoftEdge
selenium.common.exceptions.NoSuchDriverException: Message: Unable to obtain driver for MicrosoftEdge
1538 3
|
Web App开发 机器学习/深度学习 人工智能
使用魔搭开发自己的语音AI:从入门到精通
语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。
1478 41
使用魔搭开发自己的语音AI:从入门到精通
|
SQL 存储 人工智能
一次中稿10篇EMNLP22,达摩院对话智能团队在研究什么
一次中稿10篇EMNLP22,达摩院对话智能团队在研究什么
一次中稿10篇EMNLP22,达摩院对话智能团队在研究什么
|
机器学习/深度学习 人工智能 达摩院
达摩院技术创新全景|懂你的语音AI
过去十年,语音AI从实验室走向应用,语音搜索、交互早已融入日常。本文将带你一览达摩院语音AI技术创新全景,一起感受能听、会说、懂你的语音AI。
达摩院技术创新全景|懂你的语音AI
|
Java 数据库 Android开发
|
人工智能 自然语言处理 达摩院
EasyNLP开源|中文NLP+大模型落地,EasyNLP is all you need
EasyNLP背后的技术框架如何设计?未来有哪些规划?今天一起来深入了解。
EasyNLP开源|中文NLP+大模型落地,EasyNLP is all you need
|
机器学习/深度学习 人工智能 编解码
AI运动:阿里体育端智能最佳实践
过去一年,阿里体育技术团队在端智能方面不断探索,特别在运动健康场景下实现了实践落地和业务赋能,这就是AI运动项目。AI运动项目践行运动数字化的理念,为运动人口的上翻提供了重要支撑,迈出了阿里体育端智能运动领域的第一步,为用户带来了更加有趣的新颖玩法。上线以来,项目受到了广泛关注。
AI运动:阿里体育端智能最佳实践
|
消息中间件 设计模式 监控
Android性能优化 | 大图做帧动画卡?优化帧动画之 SurfaceView滑动窗口式帧复用
继上篇用“SurfaceView逐帧解析&帧复用”优化了帧动画内存性能后,一个更复杂的问题浮出水面:帧动画时间性能。这一篇试着让每帧素材大小 1MB 的帧动画流畅播放的同时不让内存膨胀。
1219 0
|
机器学习/深度学习 移动开发 JSON
什么是流式输出?
流式输出在阿里内部已经遍地开花,大家耳熟能详却又好奇不已。清楚的是知道它是性能利器从而提升业务转化,不清楚的是到底什么样的技术才算是流式输出?支撑流式输出的技术理论又有哪些?流式输出适合什么样的应用场景?今天我们就来揭开这层面纱,让大家雾里看花但又能清清楚楚地看到“花”。
什么是流式输出?

热门文章

最新文章