从感知到认知:浅谈知识赋能自然语言处理

简介: ##引言 例子1:我用**小号**试探男友,他上当了。 例子2 奥巴马是美国__ 机器真的能理解**小号**是什么意思吗,机器真的能预测出奥巴马是美国**前总统**吗?事实上,自然语言具有创新性、递归性、多义性、主观性、社会性等特点,数据驱动的模型由于缺乏结构化的知识,在很多场景会闹出大笑话。从感知到认知是机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一

引言

例子1:我用小号试探男友,他上当了。

例子2 奥巴马是美国__

机器真的能理解小号是什么意思吗,机器真的能预测出奥巴马是美国前总统吗?事实上,自然语言具有创新性、递归性、多义性、主观性、社会性等特点,数据驱动的模型由于缺乏结构化的知识,在很多场景会闹出大笑话。从感知到认知是机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,这个大脑可以使[知识图谱]()或[认知概念图谱](),也可以是常识库等。

本位旨在梳理知识赋能自然语言处理的相关工作,并分析以下几个问题:

  1. 知识能帮助文本表示学习吗?
  2. 为什么知识能提升某些下游任务?
  3. 如何自动获取知识?

知识赋能文本表示学习

在NLP进入预训练时代后,如何引入知识增强预训练效果成为了一个热门方向,事实上知识的引入对文本表示学习是正向增益的,下面介绍几个典型的知识赋能文本表示学习的工作。

ERNIE-baidu (ACL2019,AAAI2020)[1] [2]

百度提出的通过多种维度mask和持续学习的预训练框架,此模型实测对学习率较为敏感,需要大学习率才能取得较好结果,且训练难度比BERT大。

image-20191230024738136.png

ERNIE-tsinghua(ACL2019)[3]

清华提出的引入知识图谱的预训练模型,此模型过于复杂,虽然效果较好,然不太实用。

image-20191230024604576.png

K-BERT(AAAI2020)[4]

清华大学和腾讯的学者提出的K-BERT模型。学者们针对知识和文本的异构性和知识可能带来的噪音,巧妙的将结构化知识图谱数据以树形结构引入文本中,并通过soft position和Visible Matrix 减少知识嵌入的噪音,并在多个数据集取得了较好的效果

image-20191229201525501.png

KnowBERT(EMNLP2019)[5]

Allen Institute 学者提出KnowBERT,此方法主要通过实体识别和实体连接将知识图谱结构化数据引入预训练过程,本质上是一个多任务学习过程。

image-20191229202317811.png

SemBERT (AAAI2020)[6]

上海交大的学者提出SemBERT,核心想法是引入Semantic Role Labeling信息增强文本表征学习。

image-20191229202528313.png

BERT-MK(AAAI2020)[7]

上述模型大多数并不能完全引入知识图谱的结构化信息,华为学者在医疗领域提出了BERT-MK,此模型主要通过将知识图谱子图构造成序列的方式输入Transformer,这也是亮点之一,本人认为模型主体本质上和清华的ERNIE并无太大区别。

image-20191229203638284.png

KEPLER [8]

清华的学者提出了KEPLER模型,将文本表示学习和知识图谱表示学习联合成多任务学习,在entity typing和relation classification上取得较好效果,本质上仍是多任务学习,方法比华为提出的BERT-MK模型简单。

image-20191229203855105.png

K-IL(AAAI2020)[9]

南加州大学学者提出了基于注意力机制的知识嵌入表示学习,本文动机明确,行文流畅,引入的领域知识增强了文本的概念化表征。

image-20191229204336775.png

JOINER[10]

知识和文本表示学习中,一直存在需要多少文本或需要多少知识的问题,事实上文本和知识的表示学习一个互相增益的过程,弗里堡大学学者提出了JOINER, 通过向量空间正则化的方式控制文本和知识之间共享的特征,并细致分析了学习的效果,有一定的借鉴意义。

Pretrained Encyclopedia(ICLR2020)[11]

同样是将知识引入预训练模型,Facebook 学者提出了一个简单有效的方法,替换实体为同类型下不同的实体。

image-20191229214851354.png

为什么需要知识

大多数学者认为,由于数据驱动的表示学习缺乏对常识的认知、对数值的推理导致缺乏一定的泛化能力。南加州大学学者在论文“Do Nuclear Submarines Have Nuclear Captains ? A Challenge Dataset for Commonsense Reasoning over Adjectives and Objects(EMNLP2019)“发布了一个新的数据集,且实证证明预训练语言模型在常识推理上的效果远低于预期,知识是是不可或缺的。此外,慕尼黑大学学者发表论文"BERT is Not a Knowledge Base (Yet): Factual Knowledge vs. Name-Based Reasoning in Unsupervised QA Nina", 他们实证发现,将简单的fact预测样本去掉,基于BERT的预训练模型几乎无法获得正确的结果,同时他们提出将实体替换成实体向量的方式引入知识,取得一定的收益。西湖大学和华盛顿大学学者在论文”Evaluating Commonsense in Pre-trained Language Models(AAAI2020)" 也发现目前的预训练模型在较难的样本中几乎无法做出正确的预测。尽管学者都意识到知识的重要性,然而如何获取知识仍然面临严峻挑战。传统的知识抽取通常基于信息抽取,详见Rethinking Information Extraction。然而信息抽取通常需要预定义schema,且对于常识知识或更为细粒度的知识,现有的模型仍面临严峻挑战。随着预训练模型的不断发展,不少学者开始尝试基于预训练模型直接抽取知识。

自动学习知识和应用

Allen Institute 学者率先在论文" COMET: Commonsense Transformers for Automatic Knowledge Graph Construction(ACL2019)" 提出基于Transformer的知识抽取模型。紧接着,Facebook学者在论文"Language Models as Knowledge Bases?(EMNLP2019)" 提出了基于BERT构造完形填空的方式抽取知识,并发布了第一个数据集LAMA数据。卡耐基梅隆大学在论文”How can we know what language model know ? “改进了从预训练模型中提取知识的方法,他们通过基于mining 和paraphrasing的方式提升了生成提示候选(prompts)的质量,且在LAMA 数据及上取得更好的效果。既然能自动抽取知识了,抽取的知识能否直接赋能应用呢?早在2018年,马萨诸塞大学安姆斯特分校学者在论文”Building Dynamic Knowledge Graphs from Text using Machine Reading Comprehension(ICLR2018)“ 提出通过从文本构建动态知识图谱的方式来提升机器阅读理解的性能,加州伯克利分校学者在论文”Neural Module Networks for Reasoning over Text“提出结合argument抽取和symbolic reasoning的方法进一步提升数值推理型阅读理解,此文本质上也是进行文本结构化然后基于symbolic推理。近期,CMU学者在论文"Differentiable Reasoning over a Virtual Knowledge Base(ICLR2020)" 提出了将文本通过稀疏tfidf 图和最大内积搜索的方式构造虚拟知识图谱,在阅读理解上取得了较好效果。此外,UIUC学者在论文"Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agent Reinforcement Learning Approach(AAAI2020)"提出了基于文本辅助的知识图谱推理模型,主要通过两个agent的强化学习算法实现文本中的信息抽取和图谱推理任务,方法较为新颖有趣。

思考

  1. 知识赋能文本。 现有的融合知识的预训练模型大多数并不能考虑结构化先验信息,大多通过采样的方式引入知识,如何尽可能的保留知识的结构层次信息,同时减少噪音的引入,如何引入逻辑知识到预训练模型,如何提高预训练模型的效率,都是值得思考的方向。 从业务角度,知识赋能文本预训练,最为直接的方式是pipeline的模式,即离线预训练得到知识表征,将知识表征引入预训练模型,在一定程度上会降低模型复杂度并提升性能。
  2. 自动化本体构建。预训练模型可以学到一定的知识,然而很多知识会存在重复、歧义等问题,如何在此基础上进行自动化本体构建,合并重复内容,也是值得思考的方向。从业务角度,基于预训练模型的知识抽取式信息抽取的一种补充,然而实际落地还很遥远。

[1]ERNIE: Enhanced Representation through Knowledge Integration

[2]ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

[3]ERNIE: Enhanced Language Representation with Informative Entities

[4]K-BERT: Enabling Language Representation with Knowledge Graph

[5]Knowledge Enhanced Contextual Word Representations

[6]Semantics-aware BERT for Language Understanding

[7]Integrating Graph Contextualized Knowledge into Pre-trained Language Models

[8]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

[9]Knowledge Infused Learning (K-IL): Towards Deep Incorporation of Knowledge in Deep Learning

[10]Revisiting Text and Knowledge Graph Joint Embeddings : The Amount of Shared Information Matters

[11]Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

相关文章
|
6月前
|
人工智能 文字识别 自然语言处理
智能文字识别技术——AI赋能古彝文保护
人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理基础技术详细介绍(三)
自然语言处理基础技术详细介绍(三)
72 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与自然语言处理的结合:改变未来的技术趋势
人工智能(Artificial Intelligence,简称AI)已经成为当今世界科技领域的热门话题。随着技术的不断发展,人工智能正逐渐融入我们日常生活的方方面面。其中一个重要的分支领域是自然语言处理(Natural Language Processing,简称NLP)。本文将探讨人工智能与自然语言处理的结合,以及这一趋势对未来的影响。
148 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术进步:自然语言处理领域的演变与创新
技术进步:自然语言处理领域的演变与创新
42 0
|
2天前
|
机器学习/深度学习 人工智能 监控
深度学习赋能智能监控:图像识别技术的革新与应用
【4月更文挑战第16天】 在当前的数字化时代,智能监控系统作为城市安全和信息获取的重要手段受到了广泛关注。随着人工智能特别是深度学习技术的飞速发展,基于深度学习的图像识别技术已成为智能视频监控的核心组成部分。本文旨在探讨深度学习技术在图像识别领域的最新进展及其在智能监控系统中的应用情况。我们首先概述了深度学习的基本概念及其在图像处理中的优势,然后深入分析了几种关键的深度学习模型及其在智能监控场景中的实际应用案例。通过这些案例,我们揭示了深度学习如何提升监控系统的准确性、实时性和自动化水平。最后,我们讨论了当前面临的挑战和未来的发展方向,为智能监控系统的进步提供参考。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理技术的发展与应用
自然语言处理技术的发展与应用
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理基础技术详细介绍(一)
自然语言处理基础技术详细介绍(一)
98 0
|
7月前
|
人工智能 自然语言处理 算法
自然语言处理基础技术详细介绍(二)
自然语言处理基础技术详细介绍(二)
75 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能
自然语言处理技术
自然语言处理技术
78 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
深入了解自然语言处理技术
自然语言处理(NLP)是人工智能领域的一个重要研究方向,旨在实现计算机对人类语言进行理解和处理。随着大数据时代的到来,对自然语言进行分析和应用的需求越来越迫切。本文将深入探讨一些常见的自然语言处理技术及其应用。
54 0