12.40 知识库补全
现有的知识库补全研究可以分为两类,第一类是基于知识融合,提出从万维网多个数据源(如网页、结构化数据、用户日志等)抽取知识元组(主语 - 谓词 - 宾语),并将抽取的知识元组进行集成[4,11-15] 。然而,这类方法面临万维网数据源纷乱复杂、异质性强的核心挑战。第二类是基于知识推理,利用现有的模式与知识推理未知的知识,如已知姚明的出生地是上海并曾代表中国参加奥运会比赛,判断其国籍更有可能是中国。现有工作使用了不同的策略,包括通过深度学习进行推理[16-17] 、借助搜索引擎进行补全 [18-19] 、学习实体及关系的语言表示模型[20] 。然而,这类方法的补全效果还远未达到令人满意的程度。现有知识库补全相关研究在处理补全质量这一核心挑战时的效果还有待提高。另外,现有工作大多纯粹基于机器算法,难以解决知识融合过程中丰富、异质及复杂的语义难题。与这些工作相比,本文提出的研究利用人的计算能力,通过人在识别语义上的优势,提升知识库补全的整体效果。