引言
例子1:我用小号试探男友,他上当了。
例子2 奥巴马是美国__
机器真的能理解小号是什么意思吗,机器真的能预测出奥巴马是美国前总统吗?事实上,自然语言具有创新性、递归性、多义性、主观性、社会性等特点,数据驱动的模型由于缺乏结构化的知识,在很多场景会闹出大笑话。从感知到认知是机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,这个大脑可以使[知识图谱]()或[认知概念图谱](),也可以是常识库等。
本位旨在梳理知识赋能自然语言处理的相关工作,并分析以下几个问题:
- 知识能帮助文本表示学习吗?
- 为什么知识能提升某些下游任务?
- 如何自动获取知识?
知识赋能文本表示学习
在NLP进入预训练时代后,如何引入知识增强预训练效果成为了一个热门方向,事实上知识的引入对文本表示学习是正向增益的,下面介绍几个典型的知识赋能文本表示学习的工作。
ERNIE-baidu (ACL2019,AAAI2020)[1] [2]
百度提出的通过多种维度mask和持续学习的预训练框架,此模型实测对学习率较为敏感,需要大学习率才能取得较好结果,且训练难度比BERT大。
ERNIE-tsinghua(ACL2019)[3]
清华提出的引入知识图谱的预训练模型,此模型过于复杂,虽然效果较好,然不太实用。
K-BERT(AAAI2020)[4]
清华大学和腾讯的学者提出的K-BERT模型。学者们针对知识和文本的异构性和知识可能带来的噪音,巧妙的将结构化知识图谱数据以树形结构引入文本中,并通过soft position和Visible Matrix 减少知识嵌入的噪音,并在多个数据集取得了较好的效果
KnowBERT(EMNLP2019)[5]
Allen Institute 学者提出KnowBERT,此方法主要通过实体识别和实体连接将知识图谱结构化数据引入预训练过程,本质上是一个多任务学习过程。
SemBERT (AAAI2020)[6]
上海交大的学者提出SemBERT,核心想法是引入Semantic Role Labeling信息增强文本表征学习。
BERT-MK(AAAI2020)[7]
上述模型大多数并不能完全引入知识图谱的结构化信息,华为学者在医疗领域提出了BERT-MK,此模型主要通过将知识图谱子图构造成序列的方式输入Transformer,这也是亮点之一,本人认为模型主体本质上和清华的ERNIE并无太大区别。
KEPLER [8]
清华的学者提出了KEPLER模型,将文本表示学习和知识图谱表示学习联合成多任务学习,在entity typing和relation classification上取得较好效果,本质上仍是多任务学习,方法比华为提出的BERT-MK模型简单。
K-IL(AAAI2020)[9]
南加州大学学者提出了基于注意力机制的知识嵌入表示学习,本文动机明确,行文流畅,引入的领域知识增强了文本的概念化表征。
JOINER[10]
知识和文本表示学习中,一直存在需要多少文本或需要多少知识的问题,事实上文本和知识的表示学习一个互相增益的过程,弗里堡大学学者提出了JOINER, 通过向量空间正则化的方式控制文本和知识之间共享的特征,并细致分析了学习的效果,有一定的借鉴意义。
Pretrained Encyclopedia(ICLR2020)[11]
同样是将知识引入预训练模型,Facebook 学者提出了一个简单有效的方法,替换实体为同类型下不同的实体。
为什么需要知识
大多数学者认为,由于数据驱动的表示学习缺乏对常识的认知、对数值的推理导致缺乏一定的泛化能力。南加州大学学者在论文“Do Nuclear Submarines Have Nuclear Captains ? A Challenge Dataset for Commonsense Reasoning over Adjectives and Objects(EMNLP2019)“发布了一个新的数据集,且实证证明预训练语言模型在常识推理上的效果远低于预期,知识是是不可或缺的。此外,慕尼黑大学学者发表论文"BERT is Not a Knowledge Base (Yet): Factual Knowledge vs. Name-Based Reasoning in Unsupervised QA Nina", 他们实证发现,将简单的fact预测样本去掉,基于BERT的预训练模型几乎无法获得正确的结果,同时他们提出将实体替换成实体向量的方式引入知识,取得一定的收益。西湖大学和华盛顿大学学者在论文”Evaluating Commonsense in Pre-trained Language Models(AAAI2020)" 也发现目前的预训练模型在较难的样本中几乎无法做出正确的预测。尽管学者都意识到知识的重要性,然而如何获取知识仍然面临严峻挑战。传统的知识抽取通常基于信息抽取,详见Rethinking Information Extraction。然而信息抽取通常需要预定义schema,且对于常识知识或更为细粒度的知识,现有的模型仍面临严峻挑战。随着预训练模型的不断发展,不少学者开始尝试基于预训练模型直接抽取知识。
自动学习知识和应用
Allen Institute 学者率先在论文" COMET: Commonsense Transformers for Automatic Knowledge Graph Construction(ACL2019)" 提出基于Transformer的知识抽取模型。紧接着,Facebook学者在论文"Language Models as Knowledge Bases?(EMNLP2019)" 提出了基于BERT构造完形填空的方式抽取知识,并发布了第一个数据集LAMA数据。卡耐基梅隆大学在论文”How can we know what language model know ? “改进了从预训练模型中提取知识的方法,他们通过基于mining 和paraphrasing的方式提升了生成提示候选(prompts)的质量,且在LAMA 数据及上取得更好的效果。既然能自动抽取知识了,抽取的知识能否直接赋能应用呢?早在2018年,马萨诸塞大学安姆斯特分校学者在论文”Building Dynamic Knowledge Graphs from Text using Machine Reading Comprehension(ICLR2018)“ 提出通过从文本构建动态知识图谱的方式来提升机器阅读理解的性能,加州伯克利分校学者在论文”Neural Module Networks for Reasoning over Text“提出结合argument抽取和symbolic reasoning的方法进一步提升数值推理型阅读理解,此文本质上也是进行文本结构化然后基于symbolic推理。近期,CMU学者在论文"Differentiable Reasoning over a Virtual Knowledge Base(ICLR2020)" 提出了将文本通过稀疏tfidf 图和最大内积搜索的方式构造虚拟知识图谱,在阅读理解上取得了较好效果。此外,UIUC学者在论文"Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agent Reinforcement Learning Approach(AAAI2020)"提出了基于文本辅助的知识图谱推理模型,主要通过两个agent的强化学习算法实现文本中的信息抽取和图谱推理任务,方法较为新颖有趣。
思考
- 知识赋能文本。 现有的融合知识的预训练模型大多数并不能考虑结构化先验信息,大多通过采样的方式引入知识,如何尽可能的保留知识的结构层次信息,同时减少噪音的引入,如何引入逻辑知识到预训练模型,如何提高预训练模型的效率,都是值得思考的方向。 从业务角度,知识赋能文本预训练,最为直接的方式是pipeline的模式,即离线预训练得到知识表征,将知识表征引入预训练模型,在一定程度上会降低模型复杂度并提升性能。
- 自动化本体构建。预训练模型可以学到一定的知识,然而很多知识会存在重复、歧义等问题,如何在此基础上进行自动化本体构建,合并重复内容,也是值得思考的方向。从业务角度,基于预训练模型的知识抽取式信息抽取的一种补充,然而实际落地还很遥远。
[1]ERNIE: Enhanced Representation through Knowledge Integration
[2]ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
[3]ERNIE: Enhanced Language Representation with Informative Entities
[4]K-BERT: Enabling Language Representation with Knowledge Graph
[5]Knowledge Enhanced Contextual Word Representations
[6]Semantics-aware BERT for Language Understanding
[7]Integrating Graph Contextualized Knowledge into Pre-trained Language Models
[8]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation
[9]Knowledge Infused Learning (K-IL): Towards Deep Incorporation of Knowledge in Deep Learning
[10]Revisiting Text and Knowledge Graph Joint Embeddings : The Amount of Shared Information Matters
[11]Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model