PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
PositionRank思想
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
在无监督的研究中,关键短语提取被描述为一个排序问题,基于图的排序技术被认为是最优的。基于图的排序算法有PageRank和HITS。
作者总结的三个贡献:
1、提出了一种无监督图模型(PositionRank),将每个单词出现的位置添加到PageRank中,然后再进行计算每个关键词的得分和排名。
2、发现使用词的所有位置信息比仅仅使用词的第一次出现的位置信息效果要更好。
3、试验结果表明PositionRank效果会比PageRank效果好很多。
PositionRank实现
PositionRank实现的三个步骤:
1.在词水平上图的构建。
2.设计基于位置偏置的PageRank算法。
3.生成候选关键字。
图的构建
使用分词工具对文档d 进行分词,最终仅保留名字和形容词。为文档d 构建一个词图G=(V,E),其中文档保留的词均在图G 中作为一个节点且出现一次。如果在文档d 中这些节点同时出现在一个窗口w 中,那么v i 和v j 两个节点通过一条边( v i , v j ) ∈ E 进行连接。边的权重由两个词共现的次数来决定。(据研究表明,文本图的类型(有向图/无向图)不会影响图的性能[1])。
基于位置的PageRank算法
构建好无向图G,让M 作为图的邻接矩阵。如果节点v i 和v j 之间存在边,那边的权重m i j 就为边( v i , v j ) ;反之,如果不存在边,那么m i j 就为0。
原始PageRank计算公式如下所示:
其中P R ( p i ) 表示节点p i 的值,M p i表示以节点p i 为入节点的所有节点,L ( p j )表示节点p j 的出度,代表的是让被个节点最终的值都不等于0。
S代表每个节点PageRank的得分,对任一节点v i ∈ V ,每个节点最初始的值为。PageRank的每个时刻的计算公式如下所示:
其中矩阵是归一化的矩阵M MM,如下式所示:
为了防止PageRank进入闭环中,会添加一个阻尼因子,最终的PageRank计算公式如下所示:
表示向量的∣V∣的长度,并且所有的元素都为。向量 表示节点v i 随机游走都是等概率的。有研究学者发现,通过偏置随机游走将优先选择图中概率较高的节点。
作者想的是将前面出现的词赋予更高概率,如在同一文档第2个单词出现的词应该比第50个出现的单词概率更高。所以在向量将会被更改为下式:
其中p i 代表的是单词i 的位置值,如果单词i在文档的第2、5、10个位置出现,那么,最终PositionRank算法计算每个关键词的计算公式如下式所示:
其中O ( v j ) = ∑ v k ∈ A d j ( v j ) w j k ,i是向量中的节点v i的表示。
格式化候选词
文档中具有连续位置的候选词被连接成短语,考虑以下正则表达式“(形容词)*(名词)+”来匹配候选短语,长度为1~3。最终对组成后的短语进行单个关键字求和在排名。
PositionRank实验
数据集:
- 第一、二个数据集来自Gollapalli and Caragea http://www.cse.unt.edu/∼ccaragea/keyphrases.html
- 第三个数据集来自Nguyen and Kan [2]
表1 三种关键字抽取数据集详情
评价指标:mean reciprocal rank (平均倒数排名,MRR)、precision、recall、F-score。
其中D是文档集合,r d 是找到文档D的第一个正确关键字短语的等级。
实验结果展示:
图1 PositionRank设置不同窗口大小的实验结果
图2 PositionRank仅使用此第一次出现的位置信息和所有位置信息结果图
图3 各种不同模型效果对比图
表2 所有模型效果展示
Reference
[1] Rada Mihalcea and Paul Tarau. 2004. Textrank: Bringing order into text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. pages 404–411.
[2] Thuy Dung Nguyen and Min-Y en Kan. 2007. Keyphrase extraction in scientific publications. In Asian Digital Libraries. Springer, pages 317–326.