Single Document Keyphrase Extraction Using Neighborhood Knowledge
ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。本文提出使用少量的最近邻文档来提供更多的知识,以改进单文档关键字短语提取。通过添加靠近文档的几个相邻文档,将指定文档扩展为小文档集,然后对扩展文档集应用基于图的排序算法,以利用指定文档中的局部信息和相邻文档中的全局信息。
ExpandRank实现
图1 ExpandRank实现理论框架图
文档的相似度计算TF-IDF算法,d i 和d j 两个文档的相似度计算公式如下式3所示:
关键字排名算法,利用PageRank等图迭代算法进行实现,最终每个关键字将会得到一个较为稳定的值。
Neighborhood-Level Word Evaluation
使用类似文档进行关键字排序,一般文本窗口(w)大小设置为2~20。两个节点之间的权重计算如下式4所示:
其中c o u n t d p ( v i , v j ) 用来控制词v i和v j 在文档d p 中的共现关系;s i m d o c ( d 0 , d p ) 是用来衡量扩展文档d p ( 0 ≤ p ≤ k );整个图边权重的计算方式如下式5所示:
最后矩阵M 将会被归一化,让矩阵的每一行加起来都为1,便于后续PageRank继续迭代。
等价于
其中 ,一般情况下为单位向量,μ设置为0.85。
Document-Level Keyphrase Extraction
在计算了文档集中所有候选词的分数之后,为指定文档d 0 选择和评估候选短语(单个词或多个词)。d 0 的候选词(即名词和形容词)是V 的子集,在文档d 0 的文本中标记,相邻候选词的序列被折叠成多词短语。不允许以形容词结尾的短语,只有以名词结尾的短语被收集作为文档的候选短语。
其中p i 为文档d 0 中候选关键词,v j 是p i 的邻居节点。
ExpandRank实验
数据集:DUC2001。
表2 各种关键字抽取模型得分统计