Topical PageRank(TPR)论文解读

简介: 现基于图的关键字抽取算法都是通过单个单词的在网络中的随机游走,来得出每个单词的重要性得分。文档和单词能被混合语义主题呈现,作者提出将传统的随机游走算法分解成多个不同主题的随机游走。作者建立了一个Topical PageRank算法在不同主题图上进行随机游走

Automatic Keyphrase Extraction via Topic Decomposition


TRP简介


现基于图的关键字抽取算法都是通过单个单词的在网络中的随机游走,来得出每个单词的重要性得分。文档和单词能被混合语义主题呈现,作者提出将传统的随机游走算法分解成多个不同主题的随机游走。作者建立了一个Topical PageRank算法在不同主题图上进行随机游走,来获得每个单词的重要性。然后,给定文档主题分布,再进一步计算单词的排名分数,并提取排名靠前的词作为关键词。


TRP思想


目前基于图的关键词抽取算法主要面临以下两个问题:


1、好的关键词应该和被给文档的主题密切相关。在基于图的方式上,这个字应该和其他字广泛相连接,并且排名分数很高,但是不能代表文档的主要主题。


2、一个恰当的关键词集合应该很好地覆盖文档主要的主题,在基于图的方式上,可能会陷入文档单个主题上,而不能覆盖文档其他的主题。


TRP需要先进行主题分类,相对于传统的PageRank算法,TRP将进入多个精细化主题进行随机游走,以获得不同主题下的关键字。


TRP关键词抽取算法的实现步骤:


1、构建主题解析器,来获取每个文档或者段落的主题。


2、执行TRP算法进行短语抽取。


TRP实现


主题的字分布获取方式存在两种:


1.使用人工标注的数据库,WordNet。(可能不涉及所有的字)

2.无监督的机器学习算法在大范围语料中获取。(Latent Dirichlet Allocation(LDA), Latent Semantic Analysis(LSA),probabilistic LSA(pLSA))。


TPR实现关键词抽取算法图:


28e6a1a6b1e1448c983f70b593eb0939.png


图1 TPR关键词抽取流程图


具体流程如下所示:


1.构建文档d的字图,字图上边的关系遵循文档d 上字共现关系。

2.执行TPR算法来计算每个主题下字的得分情况。

3.使用字来构建词,分别对每个主题的词进行排名。

4.对于给定文档d的主题,将候选关键词的主题按照特定排名整合到最终的排名中,排名靠前的关键词被选为最终的关键词。


常规的PageRank算法:


image.png


将所有的词按照主题进行划分后,新的TPR计算公式如下:


image.png


其中每个字在不同主题中的偏置值p z ( w ) 不太一样∑ w ∈ V p z ( w ) = 1 ,并且p z ( w ) 将会严重影响TPR的效果,p z ( w ) 计算可以使用两种方式:


1.p z ( w ) =pr(w∣z),字w 出现在主题z 的概率,主要侧重点是字出现的次数。

2.p z ( w ) = p r ( z ∣ w ) ,字w 的主题是z 的概率,主要侧重点是字对主题的关注程度。

3.p z ( w )= p r ( w ∣ z ) ∗ p r ( z ∣ w ) ,是前面两者的均衡。


筛选候选关键词:


  • 关键词通常都是名词/名词短语。所以需要使用序列标注(POS)对文档的词性进行标注,提取出“(形容词)*(名词)+”的一个形式,表示零个或多个形容词后面跟着一个或者多个子名词。


  • 每个主题的候选关键词将有每个主题中的字来构成,每个主题中的词的得分计算公式如下所示:


image.png


  • 最终将每个文档的主题和词的得分进行结合,得到最终每个候选关键词的得分:


image.png


TPR评估


数据集:DUC2001(NEWS)、Hulth(RESEARCH)。


评价指标:precision、recall、F-measure、binary preference measure(Bpref)、mean reciprocal rank(MMR)。


  • Bpref是用于描述关键词的排名顺序的评价指标,对于一个文档而言,存在R个正确的关键字,使用一个关键词提取方法抽取出M 个关键词,其中存在r 个是一个正确的关键词,n个错误的关键词,具体计算公式如下式所示:


image.png


  • MMR算法用于评价每个文档第一个候选关键词的排名。对于文档d ,r a n k d 表示为具有所有提取关键词的第一个正确关键词的秩,其中D是文档所有的候选关键词列表,具体计算如下式所示:


image.png


作者主要考虑了以下四点因素对模型效果的影响:


1.词共现窗口的大小w。

2.使用LDA算法对文档主题的提取数量。(LDA算法没有考虑字/词的词频信息,TPR主要是利用外部主题LDA、内部文档结构PageRank等)

3.单词在每个主题的得分计算情况p z ( w )。

4.阻尼因子λ 对图随机游走的效果。


表1 TPR在不同窗口大小的效果


b9b21cfa71334a118a170b9558ba0307.png


表2 TPR在LDA算法下不同主题数量的效果


72da54fe37274224a388eb28d088dfd2.png

51cb91332b224d2687682156e80265d6.png


图2 TPR在不同阻尼因子$的效果

表3 TPR使用不同主题得分计算的效果


488c92c67cd746079cc5b7f5d75dffda.png


表4 TPR在NEWS数据集上的实验效果


f015160762624d3694988da951731bc2.png


表5 TPR在RESEARCH数据集上的实验效果


ba8c036c83cd4d029d40aac0bf22f6d6.png

10a13e1e179c494193fbc1c1af420163.png


图3 不同参数设置下TPR在两个数据集上评价指标的变化


TPR总结


TPR是一种无监督的关键词抽取算法,其主要特点是对文档进行分主题分别计算每个字在不同主题下的重要程度,利用一定规则得出每个主题下词的得分,最终结合多个主题得出每个候选词的最终得分,得出最终的关键词集合。


文章的重点在于文章主题的提取,并可以对文档中的字分类到各个主题中去,也就是LDA算法实现是文章的最终要一个点。作者是这样解决的:使用Wikipedia的大范围语料来训练LDA,最终得出的模型在应用到每个具体的文档上来。


个候选词的最终得分,得出最终的关键词集合。


文章的重点在于文章主题的提取,并可以对文档中的字分类到各个主题中去,也就是LDA算法实现是文章的最终要一个点。作者是这样解决的:使用Wikipedia的大范围语料来训练LDA,最终得出的模型在应用到每个具体的文档上来。

目录
相关文章
|
2月前
|
算法 索引 Python
使用Python实现PageRank计算
使用Python实现PageRank计算
|
7月前
|
机器学习/深度学习
Stanford 机器学习练习 Part 1 Linear Regression
In octave, we return values by defining which variables % represent the return values (at the top of the file)
26 0
|
6月前
|
机器学习/深度学习
Stanford 机器学习练习 Part 2 Logistics Regression
以下是我学习Andrew Ng machine learning 课程时logistic regression的相关代码,仅作为参考,因为是初学,暂时没办法做出总结。
36 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
11月前
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
54 0
|
12月前
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | DeepMind伪代码详解Transformer;连续CNN架构实现多SOTA
7 Papers & Radios | DeepMind伪代码详解Transformer;连续CNN架构实现多SOTA
127 0
|
机器学习/深度学习 自然语言处理 算法
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
|
机器学习/深度学习 边缘计算 人工智能
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
|
机器学习/深度学习 编解码 数据可视化
Paper:《Spatial Transformer Networks》的翻译与解读
Paper:《Spatial Transformer Networks》的翻译与解读
Paper:《Spatial Transformer Networks》的翻译与解读
|
算法 搜索推荐 SEO
PageRank算法原理与实现
PageRank算法原理与实现
262 0
PageRank算法原理与实现