BERT的新草料!Google从知识图谱自动生成文本,预训练史诗级增强!

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 预训练的经验来说,数据越多,效果越好!Google最近在NAACL 2021上发了一篇文章,可以从知识图谱中自动生成文本数据,再也不怕语料不够用了!

大型预训练自然语言处理(NLP)模型,如 BERT、 RoBERTa、 GPT-3、 T5和 REALM,充分利用了来自 Web 的巨型自然语言语料库,对特定任务的标注数据进行微调,获得一个效果特别好的预训练,并在某些NLP任务中甚至超过了人类的表现。

 

然而,自然语言文本本身只代表了有限的知识范围,事实(facts)可能以多种不同的方式包含在长句子这种非结构化数据中。

 

此外,文本中存在的非事实信息和有害的内容可能最终会导致模型的偏差(bias)。

 

除了非结构化的文本之外,获取信息的另一种来源是知识图谱 ,它是一种结构化数据。

 

知识图谱包含的数据通常都是事实性的,信息也通常是从可信的语料中提取的,后处理过滤和人工编辑可以确保不合适和错误的信息被删除掉。

 

因此,如果一个模型能够同时把它们结合起来,就能提高准确率,减少有害信息。但现实的矛盾是,知识图谱和文本之间存在不同的结构形式,导致它们很难与现有的语言模型中的语料库整合。

 

基于这个想法,Google提出一个新模型(Knowledge Enhanced Language Model, KELM),已经被NAACL 2021接受。

70.jpg

这篇文章主要探索了如何将知识图谱转换为自然语言的句子来增强现有的预训练语料,使其能够在不改变结构的情况下融入语言模型的预训练。

 

文中使用的数据集主要是公开的英文知识图谱Wikidata KG,模型能够将其转换为自然语言文本,以创建一个合成语料库。

 

之前有相关工作提出一种基于检索的语言模型 REALM,Google为这个语言模型提供了更强的能力,并利用合成后语料库将自然语言语料库和 知识图谱集成到预训练中。

 

语料库目前已发布在GitHub上,每一行包括一个三元组,和一个句子,如下是测试集中的一个例子:

Niklaus Troxler occupation Graphic designer, date of birth 01 May 1947 Niklaus Troxler (born May 1, 1947) is a Swiss graphic designer.

将知识图谱转换为自然语言文本

 

知识图谱包括以结构化格式明确表示的事实信息,通常以[主题实体subject,关系relation,客体实体subject]三元组的形式出现,例如,[10x10 photobooks,inception,2012]。

 

一组相关的三元组称为实体子图。基于前面三元组示例的实体子图的一个示例是{[10x10 photobooks,instance of,非营利组织] ,[10x10 photobooks,inception,2012]} ,如下图所示,KG 可以看作是互连的实体子图。


71.jpg


将子图转换为自然语言文本是 NLP 中的标准任务,称为数据到文本生成(data-to-text generation)。

 

虽然在诸如 WebNLG 等基准数据集的数据到文本生成方面取得了重大进展,但将整个 KG 转换为自然文本还有其他挑战。大型的实体和关系比小型基准数据集更加庞大和多样化。

 

此外,基准数据集由预定义的子图组成,可以形成流畅的有意义的句子。对于整个 KG,也需要创建这样的实体子图的分段。

 

为了将 Wikidata KG 文本转换为合成的自然的、流畅的语句,Google还开发了一个名为Text from KG Generator(TEKGEN)的语言化管道,它由以下几个部分组成: 一个大型启发式构造的、能够自动对齐 Wikipedia 和 Wikidata KG 三元组的训练语料库,一个将 KG 三元组转换为文本的文本到文本生成器(T5) ,一个生成三元组组合语言的实体子图创建器,以及一个消除低质量输出的后处理过滤器。

 

输出结果是一个包含整个 Wikidata KG 作为自然文本的语料库,我们称之为知识增强语言模型语料库。它由大约18M 个句子组成,包含 约45M 个三元组和约 1500个关系。


72.gif

结合知识图和自然语言文本的语言模型前训练我们的评估表明,知识图语言化是一种有效的方法来融合知识图与自然语言文本。通过增强REALM 的检索库能够有效地生成文本,该检索库仅包括维基百科的文本。

 

为了评估动词化的有效性,文中使用 KELM 语料库(即动词化三元组)增强了 REALM 检索语料库,并比较了它与不使用动词化的串联三元组增强语料库的检索性能,并使用每种数据增强技术对两个流行的开放领域问题回答数据集(自然问题和 Web 问题)进行精确度测量。



73.jpg

使用连接的三元组增强的 REALM 可以提高准确性,还可以增加一些潜在的、没有在文本中表示的知识信息。

 

增强了动词化的三元组,使得 知识图谱与自然语言文本语料库的整合更加顺畅,也会获得更高的准确率。

 

除此之外,研究团队还在一个名为 LAMA 的知识探测器上观察到了同样的趋势,该知识探测器使用填充空白问题查询模型。

 

这篇论文使用 KELM 模型提供了一个公开可用的知识图谱语料库作为自然文本。作者发现,知识图谱语言化可以用来整合知识图谱和自然文本语料库,以克服它们之间的结构差异。

 

这对于知识密集型任务(例如回答问题)具有实际应用,而提供事实知识是必不可少的。此外,该语料库还可以应用于大语言模型的预训练,可以减少不良信息,提高真实性。

 

这项工作能够鼓励将结构化知识源整合到大型语言模型的预训练中取得进一步的进展。

相关文章
|
机器学习/深度学习 JSON 自然语言处理
bert中文文本摘要代码(2)
bert中文文本摘要代码(2)
304 0
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
223 0
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
46 1
|
2月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
57 7
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
176 0
|
6月前
|
数据采集 机器学习/深度学习 自然语言处理
【相关问题解答2】bert中文文本摘要代码:结果输出为一些重复的标点符号和数字
【相关问题解答2】bert中文文本摘要代码:结果输出为一些重复的标点符号和数字
53 0
|
6月前
|
自然语言处理 Python
【相关问题解答1】bert中文文本摘要代码:import时无法找到包时,几个潜在的原因和解决方法
【相关问题解答1】bert中文文本摘要代码:import时无法找到包时,几个潜在的原因和解决方法
53 0
|
6月前
|
机器学习/深度学习 自然语言处理 数据格式
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练
Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练
|
存储 自然语言处理 PyTorch
bert中文文本摘要代码(1)
bert中文文本摘要代码(1)
131 0