大型预训练自然语言处理(NLP)模型,如 BERT、 RoBERTa、 GPT-3、 T5和 REALM,充分利用了来自 Web 的巨型自然语言语料库,对特定任务的标注数据进行微调,获得一个效果特别好的预训练,并在某些NLP任务中甚至超过了人类的表现。
然而,自然语言文本本身只代表了有限的知识范围,事实(facts)可能以多种不同的方式包含在长句子这种非结构化数据中。
此外,文本中存在的非事实信息和有害的内容可能最终会导致模型的偏差(bias)。
除了非结构化的文本之外,获取信息的另一种来源是知识图谱 ,它是一种结构化数据。
知识图谱包含的数据通常都是事实性的,信息也通常是从可信的语料中提取的,后处理过滤和人工编辑可以确保不合适和错误的信息被删除掉。
因此,如果一个模型能够同时把它们结合起来,就能提高准确率,减少有害信息。但现实的矛盾是,知识图谱和文本之间存在不同的结构形式,导致它们很难与现有的语言模型中的语料库整合。
基于这个想法,Google提出一个新模型(Knowledge Enhanced Language Model, KELM),已经被NAACL 2021接受。
这篇文章主要探索了如何将知识图谱转换为自然语言的句子来增强现有的预训练语料,使其能够在不改变结构的情况下融入语言模型的预训练。
文中使用的数据集主要是公开的英文知识图谱Wikidata KG,模型能够将其转换为自然语言文本,以创建一个合成语料库。
之前有相关工作提出一种基于检索的语言模型 REALM,Google为这个语言模型提供了更强的能力,并利用合成后语料库将自然语言语料库和 知识图谱集成到预训练中。
语料库目前已发布在GitHub上,每一行包括一个三元组,和一个句子,如下是测试集中的一个例子:
Niklaus Troxler occupation Graphic designer, date of birth 01 May 1947 Niklaus Troxler (born May 1, 1947) is a Swiss graphic designer.
将知识图谱转换为自然语言文本
知识图谱包括以结构化格式明确表示的事实信息,通常以[主题实体subject,关系relation,客体实体subject]三元组的形式出现,例如,[10x10 photobooks,inception,2012]。
一组相关的三元组称为实体子图。基于前面三元组示例的实体子图的一个示例是{[10x10 photobooks,instance of,非营利组织] ,[10x10 photobooks,inception,2012]} ,如下图所示,KG 可以看作是互连的实体子图。
将子图转换为自然语言文本是 NLP 中的标准任务,称为数据到文本生成(data-to-text generation)。
虽然在诸如 WebNLG 等基准数据集的数据到文本生成方面取得了重大进展,但将整个 KG 转换为自然文本还有其他挑战。大型的实体和关系比小型基准数据集更加庞大和多样化。
此外,基准数据集由预定义的子图组成,可以形成流畅的有意义的句子。对于整个 KG,也需要创建这样的实体子图的分段。
为了将 Wikidata KG 文本转换为合成的自然的、流畅的语句,Google还开发了一个名为Text from KG Generator(TEKGEN)的语言化管道,它由以下几个部分组成: 一个大型启发式构造的、能够自动对齐 Wikipedia 和 Wikidata KG 三元组的训练语料库,一个将 KG 三元组转换为文本的文本到文本生成器(T5) ,一个生成三元组组合语言的实体子图创建器,以及一个消除低质量输出的后处理过滤器。
输出结果是一个包含整个 Wikidata KG 作为自然文本的语料库,我们称之为知识增强语言模型语料库。它由大约18M 个句子组成,包含 约45M 个三元组和约 1500个关系。
结合知识图和自然语言文本的语言模型前训练我们的评估表明,知识图语言化是一种有效的方法来融合知识图与自然语言文本。通过增强REALM 的检索库能够有效地生成文本,该检索库仅包括维基百科的文本。
为了评估动词化的有效性,文中使用 KELM 语料库(即动词化三元组)增强了 REALM 检索语料库,并比较了它与不使用动词化的串联三元组增强语料库的检索性能,并使用每种数据增强技术对两个流行的开放领域问题回答数据集(自然问题和 Web 问题)进行精确度测量。
使用连接的三元组增强的 REALM 可以提高准确性,还可以增加一些潜在的、没有在文本中表示的知识信息。
增强了动词化的三元组,使得 知识图谱与自然语言文本语料库的整合更加顺畅,也会获得更高的准确率。
除此之外,研究团队还在一个名为 LAMA 的知识探测器上观察到了同样的趋势,该知识探测器使用填充空白问题查询模型。
这篇论文使用 KELM 模型提供了一个公开可用的知识图谱语料库作为自然文本。作者发现,知识图谱语言化可以用来整合知识图谱和自然文本语料库,以克服它们之间的结构差异。
这对于知识密集型任务(例如回答问题)具有实际应用,而提供事实知识是必不可少的。此外,该语料库还可以应用于大语言模型的预训练,可以减少不良信息,提高真实性。
这项工作能够鼓励将结构化知识源整合到大型语言模型的预训练中取得进一步的进展。