《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.33节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.33 众包知识库补全方法概览

本章介绍众包知识库补全的方法概览,如图 1所示。其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库、Web 结构化数据等,提取知识数据,并将不同数据源的知识数据融合起来,以此补全知识库;其二,在融合的过程中有效地利用众包,通过众包模型细化出具体可供众包完成的任务,利用众包优化算法进行质量和成本的控制,以选择出最优的任务发布到众包平台,如美国亚马逊公司的 Mechanical Turk ( 简称 MTurk) 1 。image
知识抽取:提出利用多类数据源进行抽取,其优势在于使不同源的知识数据互相进行补充,为知识库补全提供数据基础。具体考虑以下数据源:① 多 个 现 有 知 识 库, 如 YAGO [1] 、DBpedia [3] 和Freebase [5] 等,这些知识库构造的方法不尽相同,数据间存在互补;② Web 结构化数据,如 HTML表格[33] ,这些数据规模巨大且具有一定的结构特征,如微软在 2012 年报告存在近 6 亿的 HTML 表格。在此基础上,提取知识元组(主语 - 谓词 - 宾语)。注:由于提出方法的重点在利用众包,因此在知识抽取方面使用了现有的抽取技术。

众包模型:构建利用众包进行知识库补全的基本模型,即将知识库补全这一复杂工作分解成细粒度的众包任务,以分发给大量众包工人进行求解。在此过程中,需要进行候选任务的生成和众包任务的管理工作。具体来讲,提出以下三类基本众包任务。

● 知识标注任务:这类任务要求众包工人直接对知识元组的正确性进行判断,即给定抽取的知识元组 (s, p, o)(符号 s、p 和 o 分别表示主语、谓词和宾语,是一般表示知识的形式),希望众包工人返回 1(表示元组正确)或是 0(表示元组不正确)。

● 知识链接任务:这类任务利用众包对不同数据源的知识元组进行链接。具体而言,给定抽取自不同知识源的两个元组 (s 1 , p 1 , o 1 ) 和 (s 2 , p 2 , o 2 ),这类任务支持以下两种链接:① 实体链接:即判断充当主语或宾语的实体间尽管表示不同,但实际指代同一真实实体,可以链接起来;② 关系链接,即判断关系 p 1 和 p 2 指代的是同一种关系。

● 规则判断任务:这类任务使用众包对知识推理的规则进行判断。知识库中的其他元组对判断某一元组是否存在具有推理作用。具体而言,如要判断元组 (s, p, o) 是否成立,可以参考将主语 s 和宾语 o 关联起来的其他元组,如 (s, p 1 , e) 和 (e, p 2 , o)。这类任务就是判断 (s, p 1 , e) 和 (e, p 2 , o) 如果存在,是否能够推断出 (s, p, o) 就很可能存在。

例如,考虑判断姚明国籍(为了示例,我们假设知识库中姚明的国籍信息缺失)。知识标注任务是让众包直接判断 ( 姚明 , 国籍 , 中国 ) 元组是否正确;知识链接任务是将姚明与某篮球队员 HTML 表格上的姚链接,将关系国籍与如所属国家链接,以此将该表格上的中国填充到国籍的宾语中。规则判断任务是让众包判断 ( 姚明 , 出生地 , 上海 )、( 上海 ,所属国 , 中国 ) 这两个元组是否对判断国籍有帮助。

众包优化:如前所述,众包知识库补全面临着两大挑战:① 质量控制:与传统简单的众包工作(如图片标注、实体识别)不同,知识库补全更为复杂,需要众包工人具有一定的领域背景知识,如做上述判断国籍的题目需要对篮球队员有所了解。为此,本文提出自适应众包任务分配技术,详见第 3 章;② 成本控制:众包并不免费。由于知识库体量巨大,如不能有效地控制成本,众包知识库补全会引入难以承受的金钱开销。为此,本文提出众包机器协同的补全技术,详见第 4 章。

相关文章
|
6月前
|
数据采集 人工智能 缓存
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
180 1
|
10月前
|
人工智能 安全 搜索推荐
新手指南:人工智能poe ai 怎么用?国内使用poe记住这个方法就够了!
由于国内网络限制,许多用户在尝试访问Poe AI时面临障碍。幸运的是,现在国内用户也能轻松畅玩Poe AI,告别繁琐的设置,直接开启AI创作之旅!🎉
787 13
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】Foxmail邮箱在人工智能领域的应用方法及代码解析
Foxmail邮箱作为一款流行的邮件客户端软件,主要用于个人和企业的邮件收发、管理等功能。虽然它与人工智能(AI)技术有着潜在的融合点,但直接关于Foxmail邮箱在人工智能方面的应用代码并不是常规的讨论内容,因为邮箱客户端本身并不直接包含复杂的AI算法或代码。
695 58
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与模型知识库在移动医疗产品中的落地应用
在现代医疗体系中,通义千问大模型与MaxKB知识库的结合,为医生和患者提供了前所未有的支持与便利。该系统通过实时问答、临床决策辅助、个性化学习和患者教育等功能,显著提升了诊疗效率和患者满意度。实际应用如乐问医学APP展示了其强大优势,但数据隐私和安全问题仍需关注。
545 0
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
机器学习/深度学习 人工智能 自动驾驶
【人工智能】图像识别:计算机视觉领域的识别与处理资源概览
在快速发展的科技时代,计算机视觉(Computer Vision, CV)作为人工智能的一个重要分支,正深刻改变着我们的生活与工作方式。图像识别作为计算机视觉的核心任务之一,旨在让机器能够理解和解释数字图像或视频中的内容,进而执行诸如目标检测、图像分类、场景理解等复杂任务。本文将深入探讨图像识别领域的关键技术、常用数据集、开源框架及工具资源,为从事或关注该领域的专业人士提供一份全面的指南。
452 2
|
机器学习/深度学习 数据采集 人工智能
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能|HCIA-AI V3.0(一)——人工智能概览
人工智能|HCIA-AI V3.0(一)——人工智能概览

热门文章

最新文章