从感知到认知:浅谈知识赋能自然语言处理

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: ##引言 例子1:我用**小号**试探男友,他上当了。 例子2 奥巴马是美国__ 机器真的能理解**小号**是什么意思吗,机器真的能预测出奥巴马是美国**前总统**吗?事实上,自然语言具有创新性、递归性、多义性、主观性、社会性等特点,数据驱动的模型由于缺乏结构化的知识,在很多场景会闹出大笑话。从感知到认知是机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一

引言

例子1:我用小号试探男友,他上当了。

例子2 奥巴马是美国__

机器真的能理解小号是什么意思吗,机器真的能预测出奥巴马是美国前总统吗?事实上,自然语言具有创新性、递归性、多义性、主观性、社会性等特点,数据驱动的模型由于缺乏结构化的知识,在很多场景会闹出大笑话。从感知到认知是机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,这个大脑可以使[知识图谱]()或[认知概念图谱](),也可以是常识库等。

本位旨在梳理知识赋能自然语言处理的相关工作,并分析以下几个问题:

  1. 知识能帮助文本表示学习吗?
  2. 为什么知识能提升某些下游任务?
  3. 如何自动获取知识?

知识赋能文本表示学习

在NLP进入预训练时代后,如何引入知识增强预训练效果成为了一个热门方向,事实上知识的引入对文本表示学习是正向增益的,下面介绍几个典型的知识赋能文本表示学习的工作。

ERNIE-baidu (ACL2019,AAAI2020)[1] [2]

百度提出的通过多种维度mask和持续学习的预训练框架,此模型实测对学习率较为敏感,需要大学习率才能取得较好结果,且训练难度比BERT大。

image-20191230024738136.png

ERNIE-tsinghua(ACL2019)[3]

清华提出的引入知识图谱的预训练模型,此模型过于复杂,虽然效果较好,然不太实用。

image-20191230024604576.png

K-BERT(AAAI2020)[4]

清华大学和腾讯的学者提出的K-BERT模型。学者们针对知识和文本的异构性和知识可能带来的噪音,巧妙的将结构化知识图谱数据以树形结构引入文本中,并通过soft position和Visible Matrix 减少知识嵌入的噪音,并在多个数据集取得了较好的效果

image-20191229201525501.png

KnowBERT(EMNLP2019)[5]

Allen Institute 学者提出KnowBERT,此方法主要通过实体识别和实体连接将知识图谱结构化数据引入预训练过程,本质上是一个多任务学习过程。

image-20191229202317811.png

SemBERT (AAAI2020)[6]

上海交大的学者提出SemBERT,核心想法是引入Semantic Role Labeling信息增强文本表征学习。

image-20191229202528313.png

BERT-MK(AAAI2020)[7]

上述模型大多数并不能完全引入知识图谱的结构化信息,华为学者在医疗领域提出了BERT-MK,此模型主要通过将知识图谱子图构造成序列的方式输入Transformer,这也是亮点之一,本人认为模型主体本质上和清华的ERNIE并无太大区别。

image-20191229203638284.png

KEPLER [8]

清华的学者提出了KEPLER模型,将文本表示学习和知识图谱表示学习联合成多任务学习,在entity typing和relation classification上取得较好效果,本质上仍是多任务学习,方法比华为提出的BERT-MK模型简单。

image-20191229203855105.png

K-IL(AAAI2020)[9]

南加州大学学者提出了基于注意力机制的知识嵌入表示学习,本文动机明确,行文流畅,引入的领域知识增强了文本的概念化表征。

image-20191229204336775.png

JOINER[10]

知识和文本表示学习中,一直存在需要多少文本或需要多少知识的问题,事实上文本和知识的表示学习一个互相增益的过程,弗里堡大学学者提出了JOINER, 通过向量空间正则化的方式控制文本和知识之间共享的特征,并细致分析了学习的效果,有一定的借鉴意义。

Pretrained Encyclopedia(ICLR2020)[11]

同样是将知识引入预训练模型,Facebook 学者提出了一个简单有效的方法,替换实体为同类型下不同的实体。

image-20191229214851354.png

为什么需要知识

大多数学者认为,由于数据驱动的表示学习缺乏对常识的认知、对数值的推理导致缺乏一定的泛化能力。南加州大学学者在论文“Do Nuclear Submarines Have Nuclear Captains ? A Challenge Dataset for Commonsense Reasoning over Adjectives and Objects(EMNLP2019)“发布了一个新的数据集,且实证证明预训练语言模型在常识推理上的效果远低于预期,知识是是不可或缺的。此外,慕尼黑大学学者发表论文"BERT is Not a Knowledge Base (Yet): Factual Knowledge vs. Name-Based Reasoning in Unsupervised QA Nina", 他们实证发现,将简单的fact预测样本去掉,基于BERT的预训练模型几乎无法获得正确的结果,同时他们提出将实体替换成实体向量的方式引入知识,取得一定的收益。西湖大学和华盛顿大学学者在论文”Evaluating Commonsense in Pre-trained Language Models(AAAI2020)" 也发现目前的预训练模型在较难的样本中几乎无法做出正确的预测。尽管学者都意识到知识的重要性,然而如何获取知识仍然面临严峻挑战。传统的知识抽取通常基于信息抽取,详见Rethinking Information Extraction。然而信息抽取通常需要预定义schema,且对于常识知识或更为细粒度的知识,现有的模型仍面临严峻挑战。随着预训练模型的不断发展,不少学者开始尝试基于预训练模型直接抽取知识。

自动学习知识和应用

Allen Institute 学者率先在论文" COMET: Commonsense Transformers for Automatic Knowledge Graph Construction(ACL2019)" 提出基于Transformer的知识抽取模型。紧接着,Facebook学者在论文"Language Models as Knowledge Bases?(EMNLP2019)" 提出了基于BERT构造完形填空的方式抽取知识,并发布了第一个数据集LAMA数据。卡耐基梅隆大学在论文”How can we know what language model know ? “改进了从预训练模型中提取知识的方法,他们通过基于mining 和paraphrasing的方式提升了生成提示候选(prompts)的质量,且在LAMA 数据及上取得更好的效果。既然能自动抽取知识了,抽取的知识能否直接赋能应用呢?早在2018年,马萨诸塞大学安姆斯特分校学者在论文”Building Dynamic Knowledge Graphs from Text using Machine Reading Comprehension(ICLR2018)“ 提出通过从文本构建动态知识图谱的方式来提升机器阅读理解的性能,加州伯克利分校学者在论文”Neural Module Networks for Reasoning over Text“提出结合argument抽取和symbolic reasoning的方法进一步提升数值推理型阅读理解,此文本质上也是进行文本结构化然后基于symbolic推理。近期,CMU学者在论文"Differentiable Reasoning over a Virtual Knowledge Base(ICLR2020)" 提出了将文本通过稀疏tfidf 图和最大内积搜索的方式构造虚拟知识图谱,在阅读理解上取得了较好效果。此外,UIUC学者在论文"Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agent Reinforcement Learning Approach(AAAI2020)"提出了基于文本辅助的知识图谱推理模型,主要通过两个agent的强化学习算法实现文本中的信息抽取和图谱推理任务,方法较为新颖有趣。

思考

  1. 知识赋能文本。 现有的融合知识的预训练模型大多数并不能考虑结构化先验信息,大多通过采样的方式引入知识,如何尽可能的保留知识的结构层次信息,同时减少噪音的引入,如何引入逻辑知识到预训练模型,如何提高预训练模型的效率,都是值得思考的方向。 从业务角度,知识赋能文本预训练,最为直接的方式是pipeline的模式,即离线预训练得到知识表征,将知识表征引入预训练模型,在一定程度上会降低模型复杂度并提升性能。
  2. 自动化本体构建。预训练模型可以学到一定的知识,然而很多知识会存在重复、歧义等问题,如何在此基础上进行自动化本体构建,合并重复内容,也是值得思考的方向。从业务角度,基于预训练模型的知识抽取式信息抽取的一种补充,然而实际落地还很遥远。

[1]ERNIE: Enhanced Representation through Knowledge Integration

[2]ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

[3]ERNIE: Enhanced Language Representation with Informative Entities

[4]K-BERT: Enabling Language Representation with Knowledge Graph

[5]Knowledge Enhanced Contextual Word Representations

[6]Semantics-aware BERT for Language Understanding

[7]Integrating Graph Contextualized Knowledge into Pre-trained Language Models

[8]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

[9]Knowledge Infused Learning (K-IL): Towards Deep Incorporation of Knowledge in Deep Learning

[10]Revisiting Text and Knowledge Graph Joint Embeddings : The Amount of Shared Information Matters

[11]Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

相关文章
|
机器学习/深度学习 数据挖掘
【提示学习】Label prompt for multi-label text classification
  标签文本分类的关键问题之一是提取和利用标签之间的相关性,但直接建模标签之间的相关性很难。   LP-MTC设计了多标签文本分类模板,将标签整合到预训练语言模型的输入中,可以捕获标签之间的相关性以及标签与文本之间的语义信息,从而有效地提高模型的性能。
192 0
|
机器学习/深度学习 存储 并行计算
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
13903 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
|
5月前
|
人工智能 运维 Serverless
一键部署 Qwen3! 0 代码,2 种方式全新体验
Qwen3 正式发布并开源 8 款混合推理模型,包括两款 MoE 模型(Qwen3-235B-A22B 和 Qwen3-30B-A3B)及六个 Dense 模型。这些模型支持 119 种语言,在代码、数学等测试中表现优异,并提供思考与非思考两种模式。依托阿里云函数计算 FC 算力,FunctionAI 平台支持模型服务和应用模板部署,适用于多种场景。用户可通过 Serverless 架构快速构建高弹性、智能化应用,显著降低开发成本,提升效率。试用链接及详细文档已提供,欢迎体验。
|
8月前
|
人工智能 负载均衡 算法
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
EPLB 是 DeepSeek 推出的专家并行负载均衡器,通过冗余专家策略和负载均衡算法,优化大规模模型训练中的 GPU 资源利用率和训练效率。
360 1
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
|
5月前
|
存储 机器学习/深度学习 缓存
vLLM 核心技术 PagedAttention 原理详解
本文系统梳理了 vLLM 核心技术 PagedAttention 的设计理念与实现机制。文章从 KV Cache 在推理中的关键作用与内存管理挑战切入,介绍了 vLLM 在请求调度、分布式执行及 GPU kernel 优化等方面的核心改进。PagedAttention 通过分页机制与动态映射,有效提升了显存利用率,使 vLLM 在保持低延迟的同时显著提升了吞吐能力。
1764 18
vLLM 核心技术 PagedAttention 原理详解
|
4月前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
2631 28
|
8月前
|
并行计算
vllm部署模型要点
vllm部署模型要点
|
10月前
|
SQL 存储 人工智能
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询
Vanna 是一个开源的 Python RAG(Retrieval-Augmented Generation)框架,能够基于大型语言模型(LLMs)为数据库生成精确的 SQL 查询。Vanna 支持多种 LLMs、向量数据库和 SQL 数据库,提供高准确性查询,同时确保数据库内容安全私密,不外泄。
1444 7
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询
|
12月前
|
存储 人工智能 算法
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库
为了帮助更多人掌握大模型技术,尼恩和他的团队编写了《LLM大模型学习圣经》系列文档,包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构,基于LLM+RAG构建生产级企业知识库》和《从0到1吃透大模型的顶级架构》。这些文档不仅系统地讲解了大模型的核心技术,还提供了实战案例和配套视频,帮助读者快速上手。
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库