11.45 万维网实体列表中的实体链接技术
互联网网页中包含大量的结构化实体列表,另外,一个万维网表格中的实体列也可以看作是万维网实体列表。一个万维网实体列表可能包含一些著名足球运动员的名字、一些美国畅销专辑名字或者一些著名艺术家名字。万维网实体列表中的每一项常常指代的是某些实体,该任务就是为万维网实体列表中的每一项找到其在知识库中的对应实体。该任务的输入只是一个万维网实体列表,而不包含上下文文本,但上下文文本在自然语言文本实体链接任务中是非常重要的依据,由此可以看出这个任务与自然语言文本中的实体链接任务不同。另外,同一个万维网实体列表中不同列表项的链接工作之间相互依赖、影响,使得这个问题的优化工作是一个NP 难问题。为了解决这个问题,假设在同一个万维网实体列表中的实体应该是拥有同一种类型的实体的集合。基于这一假设,我们提出一个贪婪的迭代替换算法 LIEGE [46] ,同时对一个万维网实体列表中所有的列表项的对应实体识别进行联合优化。实验结果表明,本文提出的算法可以大幅度提高万维网实体列表中实体链接的准确率。