11.42 相关应用
正如前面所介绍的,实体链接任务是很多应用领域的重要基础工作,例如知识库扩展和问答系统。接下来将介绍实体链接的其他重要应用领域。
信息抽取
通过信息抽取技术发现的命名实体和实体关系通常都是有歧义的,将它们链接到知识库是对它们消歧和进一步利用的重要步骤。Lin et al [31] 提出一种有效的实体链接技术,将从万维网中提取出来的1 500 万个实体关系中的实体链接到维基百科。他们提出,对这些提取出来的关系进行实体链接有利于对这些关系进行语义类型标注,从而便于将它们与其它的数据资源进行整合,还有利于知识库中的推理规则学习。PATTY 系统[32]是另一个例子,它的目标是构建一个带有语义类型标签的关系模式层次结构。它首先从万维网中提取出实体之间的二元关系,为了利用这些实体关系来构建关系模式层次结构,它利用实体链接技术将这些关系中的实体链接到 YAGO2 知识库[33] ,从而实现这些实体的消歧工作,进而利用这些消歧完成的实体关系来更加准确地构建关系模式层次结构。
信息检索
传统的搜索引擎基于关键词匹配,缺乏语义理解能力。现在搜索引擎的主流趋势是从基于关键词的检索发展到语义的基于实体的检索,而这种语义的基于实体的检索[34-38]将很大程度上受益于实体链接技术的发展。因为如果我们将万维网文本中出现的所有实体都链接到知识库,这样有利于搜索引擎更加准确地理解文本的语义含义。此外,查询歧义也是阻碍搜索结果改善的一个重要因素。命名实体经常出现在搜索查询中,它们无疑是有歧义的[39] 。例如,搜索查询中的实体名字“纽约”可能意味着很多不同的实体,如纽约州、纽约市、一部由 Edward Rutherfurd 写的名叫“纽约”的历史小说,还有很多叫“纽约”的歌曲等。通过利用搜索查询的上下文和用户的搜索历史记录,可以将在搜索查询中这些歧义的实体名字链接到知识库中的对应实体,从而实现对它们的消歧,进而改善搜索结果。
内容分析
对文本的内容进行主题、类别的分析也需要实体链接技术的应用。基于内容的新闻推荐系统[40-41]首先需要对新闻报道进行主题分析,然后为用户推荐他们感兴趣的新闻。将新闻报道中的实体与知识库进行链接,有利于系统对报道的主题进行准确地理解。此外,微博(如新浪微博 、Twitter )最近已成为互联网用户越来越重要的信息来源。Michelsonet al [42] 通过使用实体链接技术发现微博用户感兴趣的话题。他们首先将微博用户在他们微博中提及的所有实体识别出来并将它们链接到知识库,然后利用这些被链接的实体在知识库中的语义类型对该用户感兴趣的话题进行刻画,从而可以更好地对用户进行微博、新闻、产品、广告的推荐[43] 。另外,从微博中收集关于一些产品、事件、名人等命名实体的意见或评论也很有意义,这个任务的实现也需要将微博中的命名实体链接到知识库[44] 。