11.41 相关工作
接下来简单介绍一下与实体链接相关的工作。学术界在很多年前已经意识到了实体排歧问题,并且提出了很多算法来解决这个问题。在传统的实体指代消解问题[17–23]中不存在知识库,它的任务是将出现在同一个文档或者不同文档中指代同一实体的实体名字识别出来,并将它们聚在一个类当中。而近年来出现的大量知识库以及知识库扩展的需求使得实体链接技术受到广泛的关注。与传统的实体指代消解问题相比,实体链接需要为在文本中发现的实体名字找到其在知识库中的对应实体,同时知识库中所拥有的关于实体的相关信息(如实体描述文本等)在实体链接的过程中也起到非常关键的作用。
实体链接也与单词词义消歧任务[24] 比较相似。单词词义消歧任务是从字典中为文本中的每个单词(而不是命名实体)找到其语义。该任务认为单词字典是完备的,也就是说它认为单词字典中包含全部单词的所有语义信息。而知识库并不是完备的,例如,许多现实世界中不是很出名的普通实体并不存在于现有知识库中。另外,实体链接任务中的实体名字形式多样,如缩写名、别名等。而单词在文本中的出现除了单词时态的不同外,一般没有太多变化。
另一个相关任务是数据管理领域的记录连接任务[25-30] ,它也被称作实体解析、冗余数据去重。它是指在不同数据库中找出那些代表真实世界中同一实体的不同记录的过程,比如,发现两条不同论文记录指代同一篇论文。大多数的记录连接任务都是假设代表同一实体的不同记录应该拥有相同或相似的属性值,该任务主要关注字面层次的异构问题,将不同数据库中指代同一实体的记录识别出来。而在实体链接任务中同时存在多名问题和重名问题,它需要将非结构化文本中的实体名字链接到结构化知识库中的对应实体。