中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.2 知识图谱构建

简介:

1.2 知识图谱构建

知识图谱由实体、实体的属性描述以及实体和实体之间的关联构成。尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难。在早期,知识图谱构建单纯依赖于人类专家。在这一方法中,知识图谱中的实体、实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2]、CyC[3]等。WordNet定义了词汇之间的特定语义关系,包含约15万个词汇、20万个词汇语义对;CyC 包含了320万条人工定义的断言,涉及30万个概念、1.5万个谓词。随着互联网兴起,虽然依靠专家进行知识图谱构建能获得精度较高的知识,但其规模、构建的速度,以及构建成本已经完全无法适应大数据时代发掘大量涌现知识的需求。为此基于数据驱动的自动知识图谱构建方法,逐渐成为国际知识图谱研究的主要方向。

目前,国际上主流的知识图谱构建方法根据其知识来源与顶层概念设计理念可大致分为以下四大类。

1. 基于 Wikipedia infoboxes 等结构化数据的构建方法

这一方法以百科作为知识的主要来源,抽取百科词条作为实体,利用词条中的infobox来填充实体的属性,其主要代表如YAGO[4-6]、DBpedia[7-8]和Freebase[9]等。此类构建方法的特点是质量较高,但更新较慢。

2. 基于开放文档构建 (schemaless)

这一方法以互联网开放网页文档作为知识的主要来源,其基本假定为,如果已知两个实体存在特定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。于是可利用自然语言处理技术,从非结构化的文本中抽取名词短语作为实体、动词短语作为谓词,通过共现关联与句法分析发现实体之间的关系。其主要代表系统如Reverb[10]、OLLIE[11]和Prismatic[12]。此类方法可以汇聚大量实体与实体间关系谓词,其主要缺点是发现的知识噪音很大。

3. 基于 fixed ontology/schema 的构建方法

这一方法以少量人工定义的抽象ontology/schema作为知识图谱的顶层概念设计,以此来充实、汇聚符合顶层概念的实体与实体关系,并在此之上进一步发现新的概念,其代表系统如NELL[13]、PROSPERA[14]和DeepDive[15]等。此类方法可用于构建面向特定领域的知识图谱。

4. 基于层次化本体 (ontology) 的构建方法

这一方法综合使用上述几种方法来构建知识图谱,尽管可以得到大量的实体、属性、实体关系,但其涉及的顶层概念数量往往较少,而且不能反映概念间的层次特性,为此,另一些研究试图从开放领域寻找构建具有层次化特性的顶层概念的可能性,其主要代表为Probase[16]。Probase从开放域汇聚了约265万个概念,并计算这些概念的上下位关系,最后基于概率的方法,从横向与纵向对这些概念进行合并,形成一个具有丰富层次的概念树。

上述这几种知识图谱的构建方法均基于文本,目前针对跨媒体数据的自动知识网络构建方法鲜有研究。总体而言,随着现代人工智能技术的发展,基于非结构化开放文档的自动知识图谱构建将是未来发展的主要趋势。

相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的进化之路
【5月更文挑战第15天】 随着技术的不断进步,人工智能(AI)已成为推动现代科技革新的核心动力。特别是在机器学习领域,AI系统的能力正通过持续学习机制得到显著增强。本文深入探讨了AI技术在实现自我进化方面的最新进展,分析了持续学习系统的关键组成部分,包括数据获取、模型适应性以及算法优化等方面。同时,文章还着重讨论了在设计这些系统时所面临的挑战,如数据偏差、计算资源限制和伦理问题,并提出了可能的解决方案。
|
1天前
|
人工智能 自然语言处理 前端开发
【AIGC】通过人工智能总结PDF文档摘要服务的构建
【5月更文挑战第9天】 使用Python和预训练的AI模型,结合Gradio前端框架,创建了一个文本及PDF摘要聊天机器人。通过加载"FalconsAI/text_summarization"模型,实现文本和PDF的预处理,包括PDF合并与文本提取。聊天机器人接收用户输入,判断是文本还是PDF,然后进行相应的摘要生成。用户可以通过运行`app.py`启动机器人,访问`localhost:7860`与之交互,快速获取内容摘要。这个工具旨在帮助忙碌的人们高效获取信息。
|
1天前
|
机器学习/深度学习 人工智能 算法
构建未来:人工智能在持续学习系统中的应用
【4月更文挑战第30天】 随着机器学习技术的不断进步,人工智能(AI)已经从静态的知识库演变为能够进行自我更新和优化的动态系统。本文探讨了AI在持续学习系统中的关键应用,分析了其如何通过实时数据分析、模式识别以及自适应算法来增强系统的学习能力和决策效率。我们还将讨论这些技术如何推动个性化服务的发展,并在不断变化的环境中维持系统的相关性和准确性。
|
1天前
|
机器学习/深度学习 人工智能 算法
构建未来:人工智能在创造性问题解决中的应用
【4月更文挑战第29天】 随着技术的不断进步,人工智能(AI)已经从简单的数据处理和模式识别演变为能够进行复杂决策和创新的领域。本文将探讨AI如何通过模仿人类的认知过程来解决创造性问题,以及这一技术如何被应用于艺术创作、工程设计和科学研究等多领域中。我们将分析最新的研究进展,展示AI如何在这些领域中不仅辅助人类工作,而且在某些情况下超越人类的创造力。
|
1天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在本地构建easyrec docker镜像时遇到了无法连接docker服务如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的进化
【4月更文挑战第27天】 随着技术的进步,人工智能(AI)已经从单一任务处理的静态系统转变为能够适应和学习新知识的动态实体。这种转变的核心在于持续学习系统(Lifelong Learning Systems),它允许AI不断积累知识,跨领域应用所学,并在不断变化的环境中保持相关性。本文将探讨AI持续学习系统的关键技术进展,包括神经网络的可塑性、转移学习和元学习策略,并分析这些技术如何推动AI向更高层次的认知能力迈进。
|
1天前
|
机器学习/深度学习 人工智能 算法
构建未来:人工智能在医疗诊断中的应用与挑战
【4月更文挑战第21天】 随着人工智能(AI)技术的迅猛发展,其在医疗领域的应用已成为推动健康科技创新的重要力量。本文聚焦于AI在医疗诊断领域的应用,探讨了机器学习、深度学习等技术如何提升疾病检测的准确性和效率。同时,分析了实施过程中所面临的数据隐私保护、算法透明度、以及跨学科合作的挑战。通过案例研究,本文旨在为读者提供一个关于AI在医疗诊断中应用的全面视角,包括最新的技术进展和未来的发展趋势。
23 4
|
1天前
|
机器学习/深度学习 数据采集 人工智能
构建未来:移动应用开发中的人工智能集成
【4月更文挑战第18天】 在本文中,我们将深入探讨移动应用开发中人工智能(AI)的集成。我们将分析AI如何改变移动应用的功能和用户体验,以及开发者如何利用这种技术来提升他们的产品。我们还将讨论一些挑战和解决方案,以及AI在未来移动应用开发中的潜在影响。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在创造性问题解决中的应用
【4月更文挑战第14天】 随着人工智能(AI)技术的不断进步,其在模仿和增强人类创造力方面的潜力正逐渐被挖掘。本文章探讨了AI如何通过机器学习、深度学习和自然语言处理等技术,在音乐创作、艺术设计和复杂问题求解等领域中展现出其独特的创新能力。我们分析了当前AI在创造性任务中所采用的方法,并讨论了这些技术如何推动新领域的发展,同时指出了目前存在的挑战和未来的发展方向。
|
1天前
|
人工智能 自然语言处理 搜索推荐

热门文章

最新文章