《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.4节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.4 基于深度学习的知识图谱构建

随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建。在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别、关系抽取、关系补全等任务上的应用。

命名实体识别

命名实体识别是从文本中提取出和人名、地名等特定的短语或名称的任务。早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] 。随着语料数据的增长,研究者逐步将机器学习和统计分析技术应用于命名实体识别,其方法可以分为有监督、半监督和无监督的方法。

有监督方法基于序列标注思想,结合大量标注语料,定义一系列实体来训练判别模型。传统模型包括隐马尔科夫模型(HMM) [29] 、最大熵马尔科夫模型(MEMM) [30] 、条件随机场(CRF) [31] 等。在深度学习领域,针对序列标注的思路,研究者将卷积神经网络[18]和循环神经网络[21]用于该任务,结合词语的表示学习,取得了优于传统方法的结果。

半 监 督( 或 弱 监 督) 方 法 主 要 采 用 boot-strapping 技术,只利用很少的标注数据作为种子开始学习,结合大量无标注数据,通过模板、句法分析树等方式迭代地从上下文中发现实体[32] 。

无监督方法则在无标注数据集的情况下,采用聚类等方法,利用类似的上下文推测出类似的概念和实例;或者基于外部知识(如 WordNet 等),完成从一个领域到另一领域的迁移学习。随着文本数据资源的不断丰富,研究者结合词的向量表示和已有的词典等信息,利用词向量之间的相对关系 ( 如v (king) -v(queen) = v(man) -v(woman)) 通过训练词向量和评估词语之间的投射关系矩阵,发现新的上下位实体[33-36] 。

关系抽取和补全

关系抽取是指从无结构的自然语言文本中找出实体之间的语义关系。早期主要采用基于规则的方法,提前定义关系所对应的结构规则,进行特定领域的关系抽取。而后,主要采用基于特征和核函数的方法,前者主要通过提取文本的语法特征[37]来构建关系的分类器;后者则利用短语句法、依存语法、实体之间路径关系等信息设计相应的核函数,并通过核函数计算两个实例的关系来完成关系抽取[38] 。近期,研究者将循环神经网络等深度学习技术应用于关系抽取中。例如,Xu et al [39] 提出一种基于 LSTM 循环神经网络的方法,对自然语言语句的依存树中不同实体间的最短依赖路径进行分析,以确定实体间关系的类别,该方法证实了深度神经网络在关系抽取中的有效性。

关系补全是基于知识库中已有的知识,进行推理或计算,对知识库中缺少的关系进行填补的任务。根据分析目标的不同可以分为两个方面,一是已知某关系两端的实体,求取两实体之间的关系;二是已知某个实体和与之关联的关系,求取该关系另一端的实体。前者可称为链接预测,后者可称为实体预测。当前,常见的关系补全方法包括基于张量重构的方法和基于翻译模型的方法等。基于张量重构的方法,以 RESCAL 系统为主要代表[40-42] ,将知识库的整个实体关系网络看作三维张量,其中每个二维切片是对一种关系的描述,该方法将整个知识库的信息进行编码整合,推理过程计算量小,但当知识库规模较大时,张量重构的代价较大。基于翻译模型的方法则将知识库中的关系看作实体间的平移向量,即将关系三元组 < 实体 S,关系 P,实体O> 中的尾部实体 O 看作头部实体 S 经过关系 P 的翻译结果。Trans* 系列模型是这类方法的代表。其中,Bordes et al [43] 提出的 TransE 模型通过结合实体和关系的表示学习,对知识库中的 1-1 关系进行补全。在此基础上,为了近一步处理1-N、N-1、N-N等复杂关系,出现了 TransII、TransR 等模型[44-45] ,为了将孤立三元组关系的语义融合为关系路径的语义,出现了 PTransE 模型[46] ,为了近一步融合知识库三元组关系和外部文本知识,出现了 DKRL 模型[47]等。

相关文章
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】Python之人工智能应用篇——音频生成技术
音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(text-to-speech)、进行不同语言之间的语音转换、根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。它涵盖了声音结构中的音素、音节、音位、语素等基本单位的预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。 音频生成技术的发展主要依赖于深度学习模型,如循环神经网络(RNN)、长短时记忆网络(LSTM)、Transformer等。这些模型通过学习大量的音频数据,能够自动生成与人类发音相似甚至超越人类水平的音频内容。近年来,随着大规模预训练模型的流行,如GPT系列模型、BERT、T5等,
43 7
【深度学习】Python之人工智能应用篇——音频生成技术
|
5天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的编程实践:从Python到深度学习的探索之旅
【9月更文挑战第6天】 在人工智能的黄金时代,编程不仅仅是一种技术操作,它成为了连接人类思维与机器智能的桥梁。本文将通过一次从Python基础入门到构建深度学习模型的实践之旅,揭示编程在AI领域的魅力和重要性。我们将探索如何通过代码示例简化复杂概念,以及如何利用编程技能解决实际问题。这不仅是一次技术的学习过程,更是对人工智能未来趋势的思考和预见。
|
10天前
|
人工智能 运维 自然语言处理
AI战略丨构建未来: 生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发, 综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
揭秘AI的魔法:深度学习如何改变世界
在这篇文章中,我们将一起探索深度学习——一种强大的人工智能技术。我们将从基础开始,了解什么是深度学习以及它如何工作。然后,我们会看到深度学习是如何影响我们日常生活的各个方面,从医疗到自动驾驶汽车,再到个性化推荐系统。最后,我们将讨论深度学习面临的挑战和未来的可能性。让我们一起揭开深度学习的神秘面纱,看看这个“魔法”是如何改变我们的世界的。
|
15天前
|
机器学习/深度学习 人工智能 算法
探索AI的魔法:机器学习与深度学习的奥秘
【8月更文挑战第27天】在这篇文章中,我们将深入探讨人工智能的两个重要分支:机器学习和深度学习。我们将首先理解它们的基本概念,然后通过Python代码示例,展示如何应用这些技术解决实际问题。无论你是AI新手,还是有经验的开发者,这篇文章都将为你提供新的知识和启示。让我们一起开启这场AI的魔法之旅吧!
|
15天前
|
数据采集 机器学习/深度学习 人工智能
Python爬虫入门指南探索AI的无限可能:深度学习与神经网络的魅力
【8月更文挑战第27天】本文将带你走进Python爬虫的世界,从基础的爬虫概念到实战操作,你将学会如何利用Python进行网页数据的抓取。我们将一起探索requests库和BeautifulSoup库的使用,以及反爬策略的应对方法。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据抓取世界的大门。
|
25天前
|
机器学习/深度学习 人工智能 算法
【深度学习】python之人工智能应用篇——图像生成技术(二)
图像生成是计算机视觉和计算机图形学领域的一个重要研究方向,它指的是通过计算机算法和技术生成或合成图像的过程。随着深度学习、生成模型等技术的发展,图像生成领域取得了显著的进步,并在多个应用场景中发挥着重要作用。
33 9
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:深度学习与我们的生活
【8月更文挑战第22天】在本文中,我们将深入探讨人工智能(AI)的未来发展趋势,特别是深度学习如何影响我们的生活。我们将从AI的基本概念出发,逐步解析深度学习的原理和应用,最后探讨AI在未来可能带来的改变。
|
2天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
9 0
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能的未来:机器学习和深度学习的融合之旅
本文将带你进入人工智能的奇妙世界,一起探索机器学习和深度学习的融合如何引领我们走向更加智能化的未来。我们将从基础概念出发,逐步深入到技术细节和应用实例,揭示这一技术革新如何改变我们的生活和工作方式。通过深入浅出的解释和生动的例子,本文旨在为读者提供一次内容丰富、启发思考的技术之旅。