《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.4节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.4 基于深度学习的知识图谱构建

随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建。在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别、关系抽取、关系补全等任务上的应用。

命名实体识别

命名实体识别是从文本中提取出和人名、地名等特定的短语或名称的任务。早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] 。随着语料数据的增长,研究者逐步将机器学习和统计分析技术应用于命名实体识别,其方法可以分为有监督、半监督和无监督的方法。

有监督方法基于序列标注思想,结合大量标注语料,定义一系列实体来训练判别模型。传统模型包括隐马尔科夫模型(HMM) [29] 、最大熵马尔科夫模型(MEMM) [30] 、条件随机场(CRF) [31] 等。在深度学习领域,针对序列标注的思路,研究者将卷积神经网络[18]和循环神经网络[21]用于该任务,结合词语的表示学习,取得了优于传统方法的结果。

半 监 督( 或 弱 监 督) 方 法 主 要 采 用 boot-strapping 技术,只利用很少的标注数据作为种子开始学习,结合大量无标注数据,通过模板、句法分析树等方式迭代地从上下文中发现实体[32] 。

无监督方法则在无标注数据集的情况下,采用聚类等方法,利用类似的上下文推测出类似的概念和实例;或者基于外部知识(如 WordNet 等),完成从一个领域到另一领域的迁移学习。随着文本数据资源的不断丰富,研究者结合词的向量表示和已有的词典等信息,利用词向量之间的相对关系 ( 如v (king) -v(queen) = v(man) -v(woman)) 通过训练词向量和评估词语之间的投射关系矩阵,发现新的上下位实体[33-36] 。

关系抽取和补全

关系抽取是指从无结构的自然语言文本中找出实体之间的语义关系。早期主要采用基于规则的方法,提前定义关系所对应的结构规则,进行特定领域的关系抽取。而后,主要采用基于特征和核函数的方法,前者主要通过提取文本的语法特征[37]来构建关系的分类器;后者则利用短语句法、依存语法、实体之间路径关系等信息设计相应的核函数,并通过核函数计算两个实例的关系来完成关系抽取[38] 。近期,研究者将循环神经网络等深度学习技术应用于关系抽取中。例如,Xu et al [39] 提出一种基于 LSTM 循环神经网络的方法,对自然语言语句的依存树中不同实体间的最短依赖路径进行分析,以确定实体间关系的类别,该方法证实了深度神经网络在关系抽取中的有效性。

关系补全是基于知识库中已有的知识,进行推理或计算,对知识库中缺少的关系进行填补的任务。根据分析目标的不同可以分为两个方面,一是已知某关系两端的实体,求取两实体之间的关系;二是已知某个实体和与之关联的关系,求取该关系另一端的实体。前者可称为链接预测,后者可称为实体预测。当前,常见的关系补全方法包括基于张量重构的方法和基于翻译模型的方法等。基于张量重构的方法,以 RESCAL 系统为主要代表[40-42] ,将知识库的整个实体关系网络看作三维张量,其中每个二维切片是对一种关系的描述,该方法将整个知识库的信息进行编码整合,推理过程计算量小,但当知识库规模较大时,张量重构的代价较大。基于翻译模型的方法则将知识库中的关系看作实体间的平移向量,即将关系三元组 < 实体 S,关系 P,实体O> 中的尾部实体 O 看作头部实体 S 经过关系 P 的翻译结果。Trans* 系列模型是这类方法的代表。其中,Bordes et al [43] 提出的 TransE 模型通过结合实体和关系的表示学习,对知识库中的 1-1 关系进行补全。在此基础上,为了近一步处理1-N、N-1、N-N等复杂关系,出现了 TransII、TransR 等模型[44-45] ,为了将孤立三元组关系的语义融合为关系路径的语义,出现了 PTransE 模型[46] ,为了近一步融合知识库三元组关系和外部文本知识,出现了 DKRL 模型[47]等。

相关文章
|
13天前
|
机器学习/深度学习 数据采集 人工智能
从零构建:深度学习模型的新手指南###
【10月更文挑战第21天】 本文将深入浅出地解析深度学习的核心概念,为初学者提供一条清晰的学习路径,涵盖从理论基础到实践应用的全过程。通过比喻和实例,让复杂概念变得易于理解,旨在帮助读者搭建起深度学习的知识框架,为进一步探索人工智能领域奠定坚实基础。 ###
30 3
|
1月前
|
机器学习/深度学习 自然语言处理 自动驾驶
深度学习之常识知识库构建
基于深度学习的常识知识库构建是一项旨在自动化获取和组织广泛的常识性信息的技术,它通过深度学习模型从文本、图像、语音等多种数据源中提取出隐含的常识知识,并构建一个可以被机器理解和应用的知识库。
40 4
|
1月前
|
人工智能 算法 安全
人工智能伦理与监管:构建负责任的AI未来
【10月更文挑战第3天】随着人工智能(AI)技术的快速发展,其在社会各领域的应用日益广泛。然而,AI的广泛应用也带来了一系列伦理和监管挑战。本文旨在探讨AI的伦理问题,分析现有的监管框架,并提出构建负责任AI未来的建议。同时,本文将提供代码示例,展示如何在实践中应用这些原则。
213 1
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
2月前
|
人工智能 运维 自然语言处理
AI战略丨构建未来: 生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发, 综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。
|
3月前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习入门:使用Python和TensorFlow构建你的第一个神经网络
【8月更文挑战第31天】 本文是一篇面向初学者的深度学习指南,旨在通过简洁明了的语言引导读者了解并实现他们的第一个神经网络。我们将一起探索深度学习的基本概念,并逐步构建一个能够识别手写数字的简单模型。文章将展示如何使用Python语言和TensorFlow框架来训练我们的网络,并通过直观的例子使抽象的概念具体化。无论你是编程新手还是深度学习领域的新兵,这篇文章都将成为你探索这个激动人心领域的垫脚石。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习之旅:构建你的第一个神经网络
【8月更文挑战第31天】在人工智能的浪潮下,深度学习技术正以前所未有的速度改变世界。本文将带你走进深度学习的大门,通过构建一个简单的神经网络模型,探索其背后的原理与实践。我们将从基础概念入手,逐步实现一个能够识别手写数字的神经网络,并在此过程中揭示深度学习的魅力和力量。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往深度学习世界的新窗户。
|
10天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
59 9
|
7天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。随着卷积神经网络(CNN)的发展,图像识别的准确性和效率得到了显著提升。然而,数据不平衡、模型泛化能力、计算资源消耗等问题仍然是制约深度学习在图像识别领域进一步发展的关键因素。本文将详细介绍深度学习在图像识别中的应用案例,并讨论解决现有挑战的可能策略。
下一篇
无影云桌面