TopicRank论文解读

简介: TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。

TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction


TopicRank简介


TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。


相对于TextRank算法,我们算法的优势在于:1、对主题而不是单词进行排序,是一种更直接的方法,可以涵盖文档主要主题的关键短语集。为此,我们只需从每一个排名靠前的聚类中选择一个候选关键词。将候选关键字短语聚类到主题中也消除了冗余,同时强化了边缘。(这点非常重要,关键词排名的性能很大程度上取决于图的简洁性,以及它精确表示文档的语义能力)2、使用了一个完整的图能够好地捕捉主体之间的语义关系。


TopicRank思想


SingleRank是对文档中每一个词(通常是名词或者形容词),然后后面对所有的词进行组合,最终对组合后的词进行重要性排序。(组合计算的公式是对词中的每个字得分进行相加,这样就会导致有些其实是非关键词的词得分偏高), 在此基础上,作者提出的TopicRank是通过对单个和多个单词表达式进行排序(其实也就是直接且分出词,在构建词图,而不是将文档先划分成每个字,在构建字图,在组合成词)。


TopicRank实现


a67dbeecfcd24caba3c55e4e7f3de8c9.png


图1 TopicRank实现流程图


TopicRank实现的两大步骤:


1.对文档进行处理(句子分割、词性标记和序列标注)。

2.根据主题在文档中的重要性对主题进行排序,并通过为每个最重要的主题选择一个关键短语候选来提取关键短语。

关键词候选词通常是独立处理的,它们所代表的主题信息分散在整个图中。


图的构建方式,包含边的权重和图的点:


image.png


其中w i , j 代表的是关键词结点c i 和c j 之间在文档中的的距离(也称为偏移位置);pos(c i)代表的是关键词节点c i 的所有偏移位置。


15f7a34c25e642cba98009b109bcc117.png


图2 TopicRank抽取示例


TopicRank实现


实验数据集:Inspec、SemEval 2010、WikiNews(https://github.com/adrien-bougouin/WikinewsKeyphraseCorpus)、DEFT。

表1 四种数据集详情


48e0cbfe0b3c411a9b75ae959e97378f.png


TextRank是一个未加权的图,SingleRank是一个用词之间共出现次数加权的图。也就是是否考虑了窗口进入算法中。


算法实现参考:TopicRank源码实现


TopicRank总结


TopicRank针对SingleRank的不足提出了一种基于主题为背景的无监督关键字抽取算法。TopicRank算法先对候选词进行层次聚类,得出多个不同主题,然后将这些主题作为结点添加到完全图上。这个完全图代表了文档的主题呈现。使用PageRank算法对主体进行评分,然后通过每个排名靠前的主题中选择最具代表性的候选主题来提取关键短语。


优势:对于数量冗余的候选词进行聚类,抽取的关键词将覆盖文档的大多数主题。完全图的使用还捕捉了主体之间的关系,而无需任何手动定义的参数,比使用共现窗口连接的效果更佳。

目录
相关文章
|
6月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
91 1
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
171 1
|
6月前
|
机器学习/深度学习 传感器 自动驾驶
2024年1月的论文推荐
又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
92 2
|
算法 搜索推荐 数据挖掘
CollabRank论文解读
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。
85 0
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
94 0
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
314 0
|
自然语言处理 算法
EmbedRank论文解读
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量
130 0
|
自然语言处理 并行计算 算法
PositionRank论文解读
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
121 0
|
算法 搜索推荐 Windows
ExpandRank论文解读
ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。
73 0
|
自然语言处理 算法 搜索推荐
2023年3月的10篇论文推荐
三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。
272 0