ExpandRank论文解读

简介: ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。

Single Document Keyphrase Extraction Using Neighborhood Knowledge


ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。本文提出使用少量的最近邻文档来提供更多的知识,以改进单文档关键字短语提取。通过添加靠近文档的几个相邻文档,将指定文档扩展为小文档集,然后对扩展文档集应用基于图的排序算法,以利用指定文档中的局部信息和相邻文档中的全局信息。


ExpandRank实现


8ad3ac2cf9f94e78b19226792b57a454.png


图1 ExpandRank实现理论框架图


文档的相似度计算TF-IDF算法,d i 和d j 两个文档的相似度计算公式如下式3所示:


image.png


关键字排名算法,利用PageRank等图迭代算法进行实现,最终每个关键字将会得到一个较为稳定的值。


Neighborhood-Level Word Evaluation


使用类似文档进行关键字排序,一般文本窗口(w)大小设置为2~20。两个节点之间的权重计算如下式4所示:


image.png


其中c o u n t d p ( v i , v j ) 用来控制词v i和v j 在文档d p 中的共现关系;s i m d o c ( d 0 , d p ) 是用来衡量扩展文档d p ( 0 ≤ p ≤ k );整个图边权重的计算方式如下式5所示:


image.png


最后矩阵M 将会被归一化,让矩阵的每一行加起来都为1,便于后续PageRank继续迭代。


image.png


等价于


image.png


其中image.png ,一般情况下image.png为单位向量,μ设置为0.85。


Document-Level Keyphrase Extraction


在计算了文档集中所有候选词的分数之后,为指定文档d 0 选择和评估候选短语(单个词或多个词)。d 0 的候选词(即名词和形容词)是V 的子集,在文档d 0 的文本中标记,相邻候选词的序列被折叠成多词短语。不允许以形容词结尾的短语,只有以名词结尾的短语被收集作为文档的候选短语。


image.png


其中p i 为文档d 0 中候选关键词,v j 是p i  的邻居节点。


ExpandRank实验


数据集:DUC2001。


表2 各种关键字抽取模型得分统计


d6f3a72ce11141c4a79fc5837951b635.png


Reference


[1] MMR(最大边界相关算法)_Forlogen的博客-CSDN博客_mmr算法

目录
相关文章
|
前端开发 JavaScript 小程序
|
Java 程序员 Spring
Spring5深入浅出篇:Spring对象属性注入详解
Spring5深入浅出篇:Spring对象属性注入详解
|
8月前
|
数据可视化 数据挖掘 BI
报表工具怎么选?盘点2025年10个最好用的报表平台,建议收藏!
报表工具怎么选?盘点2025年10个最好用的报表平台,建议收藏!
|
编解码 Dubbo NoSQL
由浅入深理解RPC架构设计
🌴🌴经常听到大家说不同项目之间调用使用HTTP方式,同一个项目内不同服务之间调用使用RPC方式。今天就来学习一下`RPC框架`,RPC框架由哪些部分组成又是如何一步一步设计出来的。
851 0
由浅入深理解RPC架构设计
|
域名解析 运维 负载均衡
Nginx-https证书认证详解
Nginx-https 1.https基本概述 1.1.SSL主要功能 安全套接层 认证用户和服务器,确保数据发送到正确的客户机和服务器 加密数据以防止数据中途被窃取 维护数据的完整性,确保数据在传输过程中不被改变
1044 0
Nginx-https证书认证详解
|
弹性计算 并行计算 UED
带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件
带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件
288 0
|
新零售 存储 人工智能
阿里云携手河南伙伴,服务本地客户
2023年2月7日,阿里云河南合作伙伴新春团拜会·郑州站顺利召开,超过150位合作伙伴到场参会。
|
Ubuntu 开发工具 C语言
EPICS的下载与安装
主要讲述的是EPICS的下载安装
605 1
|
前端开发
图标库的正确使用方式
今天来教大家在实际开发中引入图标库
845 2
图标库的正确使用方式
|
Java
零基础配置jdk1.8和jdk17(傻瓜式教程)
零基础配置jdk1.8和jdk17(傻瓜式教程)
3515 7
零基础配置jdk1.8和jdk17(傻瓜式教程)