PositionRank论文解读

简介: PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents


PositionRank思想


PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。


在无监督的研究中,关键短语提取被描述为一个排序问题,基于图的排序技术被认为是最优的。基于图的排序算法有PageRank和HITS。


作者总结的三个贡献:


1、提出了一种无监督图模型(PositionRank),将每个单词出现的位置添加到PageRank中,然后再进行计算每个关键词的得分和排名。


2、发现使用词的所有位置信息比仅仅使用词的第一次出现的位置信息效果要更好。


3、试验结果表明PositionRank效果会比PageRank效果好很多。


PositionRank实现


PositionRank实现的三个步骤:


1.在词水平上图的构建。

2.设计基于位置偏置的PageRank算法。

3.生成候选关键字。


图的构建


使用分词工具对文档d 进行分词,最终仅保留名字和形容词。为文档d 构建一个词图G=(V,E),其中文档保留的词均在图G 中作为一个节点且出现一次。如果在文档d 中这些节点同时出现在一个窗口w 中,那么v i 和v j 两个节点通过一条边( v i , v j ) ∈ E 进行连接。边的权重由两个词共现的次数来决定。(据研究表明,文本图的类型(有向图/无向图)不会影响图的性能[1])。


基于位置的PageRank算法


构建好无向图G,让M 作为图的邻接矩阵。如果节点v i 和v j 之间存在边,那边的权重m i j 就为边( v i , v j ) ;反之,如果不存在边,那么m i j 就为0。


原始PageRank计算公式如下所示:


image.png


其中P R ( p i ) 表示节点p i 的值,M p i表示以节点p i 为入节点的所有节点,L ( p j )表示节点p j 的出度,image.png代表的是让被个节点最终的值都不等于0。


S代表每个节点PageRank的得分,对任一节点v i ∈ V ,每个节点最初始的值为image.png。PageRank的每个时刻的计算公式如下所示:


image.png


其中矩阵image.png是归一化的矩阵M MM,如下式所示:


image.png


为了防止PageRank进入闭环中,会添加一个阻尼因子,最终的PageRank计算公式如下所示:


image.png


image.png表示向量的∣V∣的长度,并且所有的元素都为image.png。向量image.png 表示节点v i  随机游走都是等概率的。有研究学者发现,通过偏置image.png随机游走将优先选择图中概率较高的节点。


作者想的是将前面出现的词赋予更高概率,如在同一文档第2个单词出现的词应该比第50个出现的单词概率更高。所以在向量image.png将会被更改为下式:


image.png


其中p i 代表的是单词i 的位置值,如果单词i在文档的第2、5、10个位置出现,那么image.png,最终PositionRank算法计算每个关键词的计算公式如下式所示:


image.png


其中O ( v j ) = ∑ v k ∈ A d j ( v j ) w j k image.pngi是向量image.png中的节点v i的表示。


格式化候选词


文档中具有连续位置的候选词被连接成短语,考虑以下正则表达式“(形容词)*(名词)+”来匹配候选短语,长度为1~3。最终对组成后的短语进行单个关键字求和在排名。


PositionRank实验


数据集:



  • 第三个数据集来自Nguyen and Kan [2]


44bb2c2b7ef1470aa32e7a8bad022de8.png


表1 三种关键字抽取数据集详情


评价指标:mean reciprocal rank (平均倒数排名,MRR)、precision、recall、F-score。


image.png


其中D是文档集合,r d 是找到文档D的第一个正确关键字短语的等级。


实验结果展示:


ec91c5fe513b4af0bc5439016895876c.png


图1 PositionRank设置不同窗口大小的实验结果


17197e2fab4f42fbaf85ce685086ab8d.png


图2 PositionRank仅使用此第一次出现的位置信息和所有位置信息结果图


9f0add16a1bd4dfbb74aced9ce6ff4fc.png


图3 各种不同模型效果对比图

表2 所有模型效果展示


2bc98e1b4ed74273a0d1e18b10088779.png


Reference


[1] Rada Mihalcea and Paul Tarau. 2004. Textrank: Bringing order into text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. pages 404–411.


[2] Thuy Dung Nguyen and Min-Y en Kan. 2007. Keyphrase extraction in scientific publications. In Asian Digital Libraries. Springer, pages 317–326.

目录
相关文章
|
6月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
90 1
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
170 1
|
6月前
|
机器学习/深度学习 传感器 自动驾驶
2024年1月的论文推荐
又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
89 2
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
94 0
|
算法 搜索推荐 数据挖掘
CollabRank论文解读
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。
84 0
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
311 0
|
算法 数据挖掘
TopicRank论文解读
TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。
161 0
|
自然语言处理 算法
EmbedRank论文解读
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量
129 0
|
算法 搜索推荐 Windows
ExpandRank论文解读
ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。
73 0
|
自然语言处理 算法 搜索推荐
2023年3月的10篇论文推荐
三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。
270 0