雅虎开源轻量级多语言实体链接工具包

简介:

你每次打开客户端(如 Yahoo News 或者 Yahoo Sports),你想优先获得什么样的文本信息?虽然每个人的喜好不同,但你想知道的永远有关文本中的人物,组织和位置信息。自动搜寻此类信息的系统被称为「实体名称识别和链接系统(named entity recognition and linking systems)」。它是文本分析中最重要的系统,许多应用都会使用到它,例如搜索引擎、推荐系统、问答系统和情绪分析系统。

实体名称识别和链接系统使用统计模型,通过大量经过标记的文本进行训练。这种方法面临的主要挑战是在不同语言、长文本、缺乏标记的数据中准确探测实体,同时不需要耗费过多的系统资源(内存和处理器资源)。

在雅虎长期研究和不断应用这些解决方案之后,我们很高兴为开源社区贡献我们的这一工具:Fast Entity Linker,我们的无监督、准确、可扩展多语言实体名称识别和链接系统,同时也包含英语、西班牙语和中文数据包。

为了增加可用性,我们的系统将文本实体链接至维基百科。例如,当语句中出现「雅虎是一家总部位于加州 Sunnyvale 的公司,CEO 是 Marissa Mayer」时,这一系统会点出以下实体:

Yahoo – linked to https://en.wikipedia.org/wiki/Yahoo!

Sunnyvale, CA – linked to https://en.wikipedia.org/wiki/Sunnyvale,_California

Marissa Mayer – linked to https://en.wikipedia.org/wiki/Marissa_Mayer

在算法上,我们使用了实体嵌入,click-log 数据和高效聚类等方法来实现高精度。该系统通过使用压缩数据结构和主动散列函数以实现低内存占用和快速执行。

「实体嵌入(Entity embeddings)」是基于向量的表示,它捕获上下文中引用实体的方式。我们使用维基百科文章训练实体嵌入,并在文章中使用超链接格式来创建规范实体。使用下图中的神经网络架构来建模实体的上下文和表征,其中实体向量经过训练不仅会预测其周围实体,而且可以预测包含词序列的全局上下文。这种方式分为两层,一层实体上下文模型,另一层表征上下文模型。我们使用和用于训练段落向量的相同技术(Quoc 和 Mikolov,2014)来连接这两个层。
image

同时训练字嵌入和实体嵌入的架构。「Ent」表示实体,「W」表示它们的上下文单词

搜索 click-log 数据提供了非常有用的信号来消除局部歧义或实体歧义。例如,搜索「Fox」的人倾向于点击「Fox News」而不是「20th Century Fox」,我们可以使用这些数据来识别文档中的「Fox」。为了消除实体歧义,并确保文档具有一致的实体集合,我们的系统支持三个实体消歧算法:

Forward Backward Algorithm (Austin et al. 91)

Exemplar Clustering (Frey and Dueck 『07)

Label Propagation (Talukdar and Crammer 『09)

目前,只有前向后向算法(Forward Backward Algorithm)在我们的开源版本中是可用的,其他两个算法将很快可用!

image

当常用候选项是实体歧义的错误选项时,这些算法非常有助于精确地链接实体。在下面的例子中,这些算法利用周围语境能准确地将 Manchester City、Swansea City、 Liverpool、Chelsea 和 Arsenal 等词组连接到它们各自的足球俱乐部。模糊提及能用红色突出指明多个实体,例如 Chelsea 可以指纽约或伦敦的 Chelsea 区,或一家著名的足球俱乐部。明确的实体命名以绿色突出显示,在上例中引用的模糊和无歧义示例的实体链接候选项进行检索过程中,正确的候选项就以绿色突出显示。

image

目前,快速实体链接器(Fast Entity Linker)是仅有的三个可用于多语言实体命名识别和链接系统(其他是 DBpedia Spotlight 和 Babelfy)之一。除了独立的实体链接器,这一软件还包括了可用于创建和压缩来自维基百科的不同语言中的词/实体嵌入和数据包等工具。其中,包含了所有英语维基百科信息的数据包只有 2GB!

这个系统的技术基础在下面两篇科学论文中被详细论述:

Roi Blanco, Giuseppe Ottaviano, and Edgar Meij:「Fast and space-efficient entity linking in queries.」In Proceedings WDSM 2015.

Aasish Pappu, Roi Blanco, Yashar Mehdad, Amanda Stent, and Kapil Thadani:「Lightweight multilingual entity extraction and linking.」In Proceedings WSDM 2017.

开源工具包中有许多可用的应用程序,其中之一是将情绪归于文本中检测到的实体,而不是整个文本本身。例如考虑以下来自 MetaCritic 用户对电影《但丁密码》的实际评论:「虽然汤姆·汉克斯的表演很好,制片商也创造了一个神秘而生动的电影,但是剧情还是很难理解。虽然这部电影情节婉转有趣,但我对哥伦比亚影业的期待不止如此」。所以虽然最后的评论是中立的,但是它同样传递了对于汤姆·汉克斯积极情绪和对哥伦比亚电影公司的消极情绪。

许多现有的情绪分析工具将与文本相关联的情感值整理作为一个整体处理,这使得系统很难跟踪用户对任何单独实体的情绪。使用我们的工具包,开发者们可以让系统自动提取给定文本中的「正面」和「负面」信息,从而更清楚地了解用户对各个单独实体的情绪。

文章转载自 开源中国社区 [http://www.oschina.net]

目录
相关文章
|
7月前
|
自然语言处理 开发者 异构计算
社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型
此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。
|
29天前
|
人工智能 测试技术 Python
DynaSaur:Adobe 推出的大语言模型代理框架
Adobe Research 推出的 DynaSaur 是一个突破性的大语言模型代理框架,它允许代理动态创建和组合动作,通过生成和执行 Python 代码与环境互动,从而实现更灵活的问题解决。DynaSaur 不仅在 GAIA 基准测试中表现出色,还具有动态动作创建、动作积累与复用、环境互动等主要功能,适用于多种应用场景。
39 2
DynaSaur:Adobe 推出的大语言模型代理框架
|
7月前
|
存储 JavaScript 前端开发
Wikijs 简介 - 强大 & 可扩展的开源维基软件
Wikijs 简介 - 强大 & 可扩展的开源维基软件
|
机器学习/深度学习 自然语言处理 算法
谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌的野心:通用语音识别大模型已经支持100+语言
250 0
|
机器学习/深度学习 数据采集 自然语言处理
谷歌为1000+「长尾」语言创建机器翻译系统,Google翻译已支持部分小众语言
谷歌为1000+「长尾」语言创建机器翻译系统,Google翻译已支持部分小众语言
141 0
|
人工智能 自然语言处理 算法
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!
近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。
174 0
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!
|
机器学习/深度学习 算法 TensorFlow
干货 | Google发布官方中文版机器学习术语表
A 一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。
2961 0
|
机器学习/深度学习 TensorFlow 算法框架/工具