EmbedRank论文解读

简介: EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings


EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量;由候选短语本身之间的距离表示的多样性。**EmbedRank++**极大的保证了关键字的多样性,且不用F-Score来进行评估。


EmbedRank实现


(1) 基于词性序列从文本中提取候选短语。更准确地说,我们只保留那些由零个或多个形容词组成的短语,后跟一个或多个子名词。


(2) 使用句子嵌入来表示(嵌入)候选短语和文档本身在同一高维向量空间。(计算每个候选词向量、句子(段落)向量、文档向量)


(3) 对候选短语进行排序,以选择输出关键短语。


细节:句子(段落)级向量作者使用的是Sent2Vec模型,文档级向量作者使用的是Doc2vec。相似度计算使用的是**Cosine Similarity(余弦相似度)**方法。


EmbedRank++实现


EmbedRank模型抽取的关键字可能存在语义重复,例如:“molecular equivalence numbers”和“molecular equivalence indices”是表示一样的意思的短语。这样的现象可能导致用户有不好的使用体验。所以在此基础上,作者开拓了候选关键词语义的多样性,使用MMR(Maximal Marginal Relevance)。


MMR算法实现可以参照参考文献[1],广泛应用于信息检索和文本摘要领域。MMR的计算公式如下式(1)所示:


image.png


R 代表所有的检索文档,Q为输入的查询关键词,S 为最开始初始化的空集合(代表对于问题Q得出的最优回答),D i 和D j 表示被检索的文档, S i m 1  和S i m 2 表示相似度度量函数。当λ=1时,MMR计算标准的相关性排序列表,而当λ = 0 时,它计算R文档中的最大多样性排序。


为了将其应用到关键词抽取中,作者将其改为公式2:


image.png


其中C表示候选关键词,K 代表为抽取的关键词,doc是全文的向量表示,C i  和C j分别表示关键词i 和j ,image.png是余弦相似度的计算公式。


通过MMR算法,EmbedRank++相对于EmbedRank算法所得的结果会更加考虑到候选关键词的多样性,可能可以更加有效地改善用户的使用体验。


EmbedRank实验


数据集:Inspec、DUC2001、NUS。


7fea959fc43548d786ce7e2261901447.png


图1 EmbedRank和EmbedRank++在某文档的实验效果图

表1 各种模型在三种数据集上的实验结果


965d8b93329b4f13a7c053740bd72a87.png


实现代码参考:


graph-tool:https://graph-tool.skewed.de.


co-occurence window on new sentence:https://github.com/boudinfl/pke

Sent2Vec:https://github.com/epfml/sent2vec

Doc2vec:https://github.com/jhlau/doc2vec

EmbedRank & EmbedRank++:https://github.com/swisscom/ai-research-keyphrase-extraction

Reference


[1] MMR(最大边界相关算法)_Forlogen的博客-CSDN博客_mmr算法

目录
相关文章
|
7月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
94 1
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
177 1
|
7月前
|
机器学习/深度学习 传感器 自动驾驶
2024年1月的论文推荐
又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
98 2
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
99 0
|
算法 搜索推荐 数据挖掘
CollabRank论文解读
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。
90 0
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
334 0
|
算法 数据挖掘
TopicRank论文解读
TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。
174 0
|
自然语言处理 并行计算 算法
PositionRank论文解读
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
131 0
|
算法 搜索推荐 Windows
ExpandRank论文解读
ExpandRank是出自北京大学2008年的老论文,其实现思想为:现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。
78 0
|
自然语言处理 算法 搜索推荐
2023年3月的10篇论文推荐
三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。
276 0
下一篇
DataWorks