《中国人工智能学会通讯》——6.11 链接数据技术

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.11节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.11 链接数据技术

数据链接的建立涉及多个方面,包括数据资源标识、资源描述模型、词汇与本体定义、链接数据格式、自动链接抽取、链接预测等。

资源标识
资源标识是构建数据链接的第一步。LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识。但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源。要维护不同数据集之间的 URI 链接,将带来巨大的工作量。

Schema.org 鼓励采用一种称为基于描述的引用(Reference by Description)的方式实现资源的标识和相互引用[18] 。Guha 认为人们之间交流信息时,通常基于实体的描述而非 ID 来区分实体。例如,当你介绍一个人时,常用“这位是著名作家张三”和“那位是某公司 CEO 张三”等来进行区分,而不是通过一个 ID 来介绍。因此,Schema.org 只要求少量的资源拥有 URIs,并鼓励数据发布者为资源增加尽可能多的额外描述。这些描述可以进一步被各种自动实体消解和实体对齐技术所使用,来实现更加自动的资源引用和数据链接[21] 。

资源描述框架
建立数据链接需要有统一的数据描述模型。语义网设计了自己的基本数据模型,称为 RDF(Resource Description Framework)。RDF 本质上是有向标记图(Directed Labeled Graph)。关于资源的任何一项描述都简化为一个包含主谓宾(Subject, Predicate, Object)的三元组陈述。每个 Predicate 为资源增加一条属性描述或链接至其他资源[22] 。

在很多具体的实践中,RDF 的设计并非全部可取,但其强调以图模型为基础,以数据链接为中心,属性不必从属于特定类,允许多方动态新增描述等,都是针对互联网开放性的合理设计。

词汇与本体定义
描述数据需要词汇和术语。语义网借鉴了传统知识表示,如框架系统、描述逻辑等方法,制定了OWL 等本体描述语言[23] 。OWL 在生物医学等对知识表示能力要求高的特定领域有较多的应用,但在构建开放域知识库方面,其众多的表达构件在一个开放的互联网环境下面,难以迅速扩展。

Schema.org 是公共词汇标准化方面较为成功的实践。Schema.org遵循“增量复杂”(IncrementalComplexity)和自底向上的控制原则。通常从一个最简单的词汇集开始,在各网站得到应用后,再根据需求逐步扩增表达能力。

链接数据格式
在 链 接 数 据 的 发 布 格 式 方 面, 常 用 的 包括 RDFa(RDF in Attributes) [13] 、JSON-LD(JavaScript Object Notation for Linked Data) [14]和 HTML Microdata [15] 。 RDFa 用于在 XHTML 文档嵌入语义标签,这些语义标签可以被抽取成 RDF三元组描述,用于后续处理。JSON-LD 则适合于在基于 Javascript 插件的网页中嵌入语义和链接数据。Microdata 微数据作为 HTML5 的一部分,也可用来在网页中增加语义标注,其设计比 RDFa 更为简化。谷歌知识图谱同时支持这三种链接数据发布格式。

自动链接抽取
平行于语义网的发展,怎样从海量 Web 文本中自动提取结构化数据一直是自然语言处理领域关注的重点,较为有代表性的工作如 NELL [24] 、DeepDive [25] 、OpenIE [26] 。文本也是扩展和补全当前很多知识图谱的主要来源之一[27-29] 。从主要技术思路上区分,可分为基于先验本体和基于语法结构两种主要的不同方法。第一种方法需要预先设定抽取的关系和实体类型,再迭加远监督(Distant Supervision) [30] 或弱监督的方法,采用已有的数据链接关系作为标记数据,典型的如 Deepdive [24] 、YAGO [31] 以及各种参加 TAC-KBP 的属性框填充竞赛的系统[32]等。另外一种方法通常被称为开放信息抽取(Open InformationExtraction)。这种方法主要基于句子和语法结构 的 分 析, 把 句 子 化 简 为 三 元组,比较典型的工作如 Ollie [33]和 Standford 结 合 自 然 逻 辑 的OpenIE [26] 等。

链接预测
链接预测是指基于已有的链接关系来预测发现新的链接关系。这也是当前知识图谱技术研究的一个热点。根据所使用技术方法的不同,可以分为图特征模型、表示学习和统计关系学习三类。

基于图特征模型的链接预测通过图结构的相似性来预测节点间可能存在的关系。从测量结构相似度时所使用的指标出发,传统的链接预测又可以被分为局部方法、准局部方法和全局方法[34] 。局部方法经常会使用邻居节点的相似性[35] ,全局方法通常会考虑实体间所有的路径来作为指标[36] ,而准局部方法事实上是在上述两者之间作了一个折衷,兼顾预测的准确性和计算的复杂度。由于知识图谱需要处理的是有类型的语义链接(typed links),知识图谱的链接预测比传统更加复杂。目前在针对知识图谱的链接预测中比较流行的图特征模型包括归纳逻辑编程(如 AMIE [37] )、路径排序算法 PRA(随机游走算法的扩展) [38] 和子图特征抽取算法SFE [39] 等。

表示学习源于机器学习领域,它是对数据的一种特定表达,成功地应用在自然语言处理、语音识别等多个方面[40] 。当前,表示学习方法被广泛地应用于知识图谱的链接预测中。表示学习旨将链接数据中的实体和关系通过学习过程表示为实值向量。其过程通常包含实值向量的初始化、学习目标的定义、模型参数和实值向量的学习等步骤。主要的方法包括双线性模型、多层感知机模型、张量神经网络模型和距离模型等,如表 1 所示,其中 e i ,e j ,r k 分别代表两个实体和一个关系的实体向量表示。

表 1 基于表示学习的链接预测方法
image

事实上,图特征模型通常和表示学习方法一起使用,起到相互补充的作用,前者可以更好地表达局部的图模式,而后者能学习到全局的模式,典型工作如 PTransE [51] 和各种组合模型等[52-53] 。

基于统计关系学习的链接预测旨在同时利用链接数据中的统计信息和逻辑依赖性来预测实体间的关系。马尔可夫随机域(MRF)是一种传统的用于链接关系学习的概率图模型[54] ,而概率软逻辑(PSL)是最近被广泛研究的可以用来预测实体关系的统计关系学习方法[55] 。前者通过将模板应用到实体集合以生成马尔可夫随机域的图,最终实现实体关系的推理;后者融合统计信息和逻辑依赖,即将链接数据中对实体的本体限制转化为有权重的规则,并能通过一种凸优化方法有效地解决其中的概率推理,解决传统的马尔可夫逻辑网络(MLN)所遇到的可扩展性问题。

相关文章
|
6天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
38 3
|
16天前
|
人工智能 搜索推荐 安全
AI技术在医疗领域的应用与挑战
【10月更文挑战第27天】 本文探讨了人工智能(AI)在医疗领域的应用,包括疾病诊断、药物研发和患者管理等方面。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题和技术局限性等。通过对这些方面的深入分析,我们可以更好地理解AI在医疗领域的潜力和发展方向。
119 59
|
4天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
36 7
|
6天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
65 11
|
9天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
55 4
|
9天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
13天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
12天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。