ExpandRank论文解读

简介: ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。

Single Document Keyphrase Extraction Using Neighborhood Knowledge


ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。本文提出使用少量的最近邻文档来提供更多的知识,以改进单文档关键字短语提取。通过添加靠近文档的几个相邻文档,将指定文档扩展为小文档集,然后对扩展文档集应用基于图的排序算法,以利用指定文档中的局部信息和相邻文档中的全局信息。


ExpandRank实现


8ad3ac2cf9f94e78b19226792b57a454.png


图1 ExpandRank实现理论框架图


文档的相似度计算TF-IDF算法,d i 和d j 两个文档的相似度计算公式如下式3所示:


image.png


关键字排名算法,利用PageRank等图迭代算法进行实现,最终每个关键字将会得到一个较为稳定的值。


Neighborhood-Level Word Evaluation


使用类似文档进行关键字排序,一般文本窗口(w)大小设置为2~20。两个节点之间的权重计算如下式4所示:


image.png


其中c o u n t d p ( v i , v j ) 用来控制词v i和v j 在文档d p 中的共现关系;s i m d o c ( d 0 , d p ) 是用来衡量扩展文档d p ( 0 ≤ p ≤ k );整个图边权重的计算方式如下式5所示:


image.png


最后矩阵M 将会被归一化,让矩阵的每一行加起来都为1,便于后续PageRank继续迭代。


image.png


等价于


image.png


其中image.png ,一般情况下image.png为单位向量,μ设置为0.85。


Document-Level Keyphrase Extraction


在计算了文档集中所有候选词的分数之后,为指定文档d 0 选择和评估候选短语(单个词或多个词)。d 0 的候选词(即名词和形容词)是V 的子集,在文档d 0 的文本中标记,相邻候选词的序列被折叠成多词短语。不允许以形容词结尾的短语,只有以名词结尾的短语被收集作为文档的候选短语。


image.png


其中p i 为文档d 0 中候选关键词,v j 是p i  的邻居节点。


ExpandRank实验


数据集:DUC2001。


表2 各种关键字抽取模型得分统计


d6f3a72ce11141c4a79fc5837951b635.png


Reference


[1] MMR(最大边界相关算法)_Forlogen的博客-CSDN博客_mmr算法

目录
相关文章
|
2月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
69 1
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
137 1
|
2月前
|
机器学习/深度学习 传感器 自动驾驶
2024年1月的论文推荐
又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
62 2
|
11月前
|
机器学习/深度学习 自然语言处理 并行计算
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
978 0
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
|
11月前
|
算法 搜索推荐 数据挖掘
CollabRank论文解读
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。
66 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
73 0
|
2月前
|
机器学习/深度学习 算法 固态存储
【论文泛读】 Deep Learning 论文合集
【论文泛读】 Deep Learning 论文合集
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
254 0
|
11月前
|
自然语言处理 并行计算 算法
PositionRank论文解读
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
90 0
|
11月前
|
自然语言处理 算法
EmbedRank论文解读
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量
90 0

热门文章

最新文章