11.47 领域文本中的实体链接技术
除了通用知识库,我们还拥有很多领域知识库(如 DBLP 文献网络 、IMDb 电影网络)。将领域文本中的命名实体链接到相应领域知识库,对领域文本的分析和领域知识库的扩充非常有帮助。目前主流的实体链接算法都是针对通用的维基百科或者由维基百科生成的知识库(如 YAGO),这些算法都依赖于与维基百科相关的特征,例如维基百科文章中的上下文文本信息、基于维基百科的相关度度量,以及维基百科的一些特殊结构(如排歧页面、跳转页面等)。由于领域知识库并不具备这些特征,所以之前的实体链接算法都不能应用于领域文本中的实体链接任务。我们提出一个概率模型 SHINE [48]来解决这个问题,它主要由两个子模型构成,分别是实体流行度模型和实体对象模型。实体流行度模型表明实体的流行程度,即在不知道上下文的情况下观察到某个实体的可能性。实体对象模型表明观察到领域知识库中的对象出现在某个实体周围文本的可能性。实验针对 DBLP 文献异构网络进行测试,结果表明,我们提出的概率模型算法远远优于基准方法且具有很好的扩展性。