PositionRank论文解读

简介: PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents


PositionRank思想


PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。


在无监督的研究中,关键短语提取被描述为一个排序问题,基于图的排序技术被认为是最优的。基于图的排序算法有PageRank和HITS。


作者总结的三个贡献:


1、提出了一种无监督图模型(PositionRank),将每个单词出现的位置添加到PageRank中,然后再进行计算每个关键词的得分和排名。


2、发现使用词的所有位置信息比仅仅使用词的第一次出现的位置信息效果要更好。


3、试验结果表明PositionRank效果会比PageRank效果好很多。


PositionRank实现


PositionRank实现的三个步骤:


1.在词水平上图的构建。

2.设计基于位置偏置的PageRank算法。

3.生成候选关键字。


图的构建


使用分词工具对文档d 进行分词,最终仅保留名字和形容词。为文档d 构建一个词图G=(V,E),其中文档保留的词均在图G 中作为一个节点且出现一次。如果在文档d 中这些节点同时出现在一个窗口w 中,那么v i 和v j 两个节点通过一条边( v i , v j ) ∈ E 进行连接。边的权重由两个词共现的次数来决定。(据研究表明,文本图的类型(有向图/无向图)不会影响图的性能[1])。


基于位置的PageRank算法


构建好无向图G,让M 作为图的邻接矩阵。如果节点v i 和v j 之间存在边,那边的权重m i j 就为边( v i , v j ) ;反之,如果不存在边,那么m i j 就为0。


原始PageRank计算公式如下所示:


image.png


其中P R ( p i ) 表示节点p i 的值,M p i表示以节点p i 为入节点的所有节点,L ( p j )表示节点p j 的出度,image.png代表的是让被个节点最终的值都不等于0。


S代表每个节点PageRank的得分,对任一节点v i ∈ V ,每个节点最初始的值为image.png。PageRank的每个时刻的计算公式如下所示:


image.png


其中矩阵image.png是归一化的矩阵M MM,如下式所示:


image.png


为了防止PageRank进入闭环中,会添加一个阻尼因子,最终的PageRank计算公式如下所示:


image.png


image.png表示向量的∣V∣的长度,并且所有的元素都为image.png。向量image.png 表示节点v i  随机游走都是等概率的。有研究学者发现,通过偏置image.png随机游走将优先选择图中概率较高的节点。


作者想的是将前面出现的词赋予更高概率,如在同一文档第2个单词出现的词应该比第50个出现的单词概率更高。所以在向量image.png将会被更改为下式:


image.png


其中p i 代表的是单词i 的位置值,如果单词i在文档的第2、5、10个位置出现,那么image.png,最终PositionRank算法计算每个关键词的计算公式如下式所示:


image.png


其中O ( v j ) = ∑ v k ∈ A d j ( v j ) w j k image.pngi是向量image.png中的节点v i的表示。


格式化候选词


文档中具有连续位置的候选词被连接成短语,考虑以下正则表达式“(形容词)*(名词)+”来匹配候选短语,长度为1~3。最终对组成后的短语进行单个关键字求和在排名。


PositionRank实验


数据集:



  • 第三个数据集来自Nguyen and Kan [2]


44bb2c2b7ef1470aa32e7a8bad022de8.png


表1 三种关键字抽取数据集详情


评价指标:mean reciprocal rank (平均倒数排名,MRR)、precision、recall、F-score。


image.png


其中D是文档集合,r d 是找到文档D的第一个正确关键字短语的等级。


实验结果展示:


ec91c5fe513b4af0bc5439016895876c.png


图1 PositionRank设置不同窗口大小的实验结果


17197e2fab4f42fbaf85ce685086ab8d.png


图2 PositionRank仅使用此第一次出现的位置信息和所有位置信息结果图


9f0add16a1bd4dfbb74aced9ce6ff4fc.png


图3 各种不同模型效果对比图

表2 所有模型效果展示


2bc98e1b4ed74273a0d1e18b10088779.png


Reference


[1] Rada Mihalcea and Paul Tarau. 2004. Textrank: Bringing order into text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. pages 404–411.


[2] Thuy Dung Nguyen and Min-Y en Kan. 2007. Keyphrase extraction in scientific publications. In Asian Digital Libraries. Springer, pages 317–326.

目录
相关文章
|
机器学习/深度学习 算法 安全
密码学系列之六:公钥密码体制
密码学系列之六:公钥密码体制
libevent/libev框架实战
libevent/libev框架实战
229 0
|
存储 JavaScript C#
ROS CDK魔法书:点亮博客上云新技能(C#篇)
阿里云ROS CDK结合OSS的资源编排教程,教你如何以代码定义云资源,简化部署流程。ROS CDK允许使用编程语言(如TypeScript、C#)代替JSON或YAML模板,创建和管理云资源,如OSS Bucket。通过Asset模块,本地文件被转化为云资源,ROS CDK的`ros-cdk-ossassets`和`ros-cdk-ossdeployment`则负责资源上传和管理。教程以创建和部署博客到OSS为例,展示了从初始化项目、配置凭证到编写CDK代码,再到打包、部署和更新资源栈的全过程。使用ROS CDK,开发者能更高效地实现云上资源的自动化运维和管理。
|
机器学习/深度学习 自然语言处理 监控
利用机器学习进行情感分析:技术详解与实践
【5月更文挑战第13天】本文探讨了利用机器学习进行情感分析的方法,包括技术原理、常用算法和实践应用。情感分析涉及文本预处理(如清洗、分词和去除停用词)、特征提取(如词袋模型、TF-IDF和Word2Vec)及分类器训练(如朴素贝叶斯、SVM和RNN/LSTM)。常见情感分析算法有朴素贝叶斯、支持向量机和深度学习模型。实践中,情感分析应用于社交媒体监控、产品评论分析等领域。通过本文,读者可了解情感分析的基础知识及其应用价值。
1501 2
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。
|
传感器 编解码 安全
智能物联网码垛机械臂设计
一、题目 智能物联网码垛机械臂设计 二、技术参数 1.机械设计,电路设计协同设计。 2.通过串口通信实现与电脑上位机的通信。 3.通过esp8266实现无线网络通信,完成对机械臂的控制。 三、设计任务及要求 1.完成机械结构设计与三维建模。 2.完成对机械臂的基础控制。
|
测试技术
一款功能完善的智能匹配1V1视频聊天App应该通过的测试CASE
文章列举了一系列针对1V1视频聊天App的测试用例,包括UI样式、权限请求、登录流程、匹配逻辑、消息处理、充值功能等多个方面的测试点,并标注了每个测试用例的执行状态,如通过(PASS)、失败(FAIL)或需要进一步处理(延期修改、待定、方案再定等)。
272 0
|
存储 XML JSON
使用Protocol Buffers优化数据传输
使用Protocol Buffers优化数据传输
|
JavaScript
Vue3指令:搜索框输入防抖实现(附源码)
Vue3指令:搜索框输入防抖实现(附源码)
552 0
|
Python
使用selenium的edge浏览器登录某为
使用selenium的edge浏览器登录某为
232 0
下一篇
oss云网关配置