11.46 微博中的实体链接技术
近来微博已成为互联网用户越来越重要的信息来源,每天有数亿条微博被产生出来。将微博中出现的命名实体链接到知识库中的对应实体有助于微博用户兴趣点的发现,以及微博推荐等应用。由于微博文本本身短小、随意且低质的特点,微博中的实体链接任务更具挑战性。自然语言文本中的实体链接技术主要针对万维网中的新闻文章,它们的基本想法是利用文本的相似性和同一文档中实体的主题一致性来进行链接。然而由于单条微博中包含的信息量非常有限,使得这些方法对于微博中的实体链接任务不能取得很好的效果。我们的思路是同时利用单条微博中的局部信息,以及同一用户不同微博之间的用户兴趣信息来帮助链接。本文提出了一个基于图的框架 KAURI [47] ,同时利用这两方面的信息,通过对用户的兴趣点进行建模为用户所有微博中的所有实体同时进行链接。在测试的微博数据集上,该方法取得了比自然语言文本中的实体链接方法更高的准确率;同时,该方法具有较好的扩展性,能够快速处理微博流数据。