EmbedRank论文解读

简介: EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings


EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量;由候选短语本身之间的距离表示的多样性。**EmbedRank++**极大的保证了关键字的多样性,且不用F-Score来进行评估。


EmbedRank实现


(1) 基于词性序列从文本中提取候选短语。更准确地说,我们只保留那些由零个或多个形容词组成的短语,后跟一个或多个子名词。


(2) 使用句子嵌入来表示(嵌入)候选短语和文档本身在同一高维向量空间。(计算每个候选词向量、句子(段落)向量、文档向量)


(3) 对候选短语进行排序,以选择输出关键短语。


细节:句子(段落)级向量作者使用的是Sent2Vec模型,文档级向量作者使用的是Doc2vec。相似度计算使用的是**Cosine Similarity(余弦相似度)**方法。


EmbedRank++实现


EmbedRank模型抽取的关键字可能存在语义重复,例如:“molecular equivalence numbers”和“molecular equivalence indices”是表示一样的意思的短语。这样的现象可能导致用户有不好的使用体验。所以在此基础上,作者开拓了候选关键词语义的多样性,使用MMR(Maximal Marginal Relevance)。


MMR算法实现可以参照参考文献[1],广泛应用于信息检索和文本摘要领域。MMR的计算公式如下式(1)所示:


image.png


R 代表所有的检索文档,Q为输入的查询关键词,S 为最开始初始化的空集合(代表对于问题Q得出的最优回答),D i 和D j 表示被检索的文档, S i m 1  和S i m 2 表示相似度度量函数。当λ=1时,MMR计算标准的相关性排序列表,而当λ = 0 时,它计算R文档中的最大多样性排序。


为了将其应用到关键词抽取中,作者将其改为公式2:


image.png


其中C表示候选关键词,K 代表为抽取的关键词,doc是全文的向量表示,C i  和C j分别表示关键词i 和j ,image.png是余弦相似度的计算公式。


通过MMR算法,EmbedRank++相对于EmbedRank算法所得的结果会更加考虑到候选关键词的多样性,可能可以更加有效地改善用户的使用体验。


EmbedRank实验


数据集:Inspec、DUC2001、NUS。


7fea959fc43548d786ce7e2261901447.png


图1 EmbedRank和EmbedRank++在某文档的实验效果图

表1 各种模型在三种数据集上的实验结果


965d8b93329b4f13a7c053740bd72a87.png


实现代码参考:


graph-tool:https://graph-tool.skewed.de.


co-occurence window on new sentence:https://github.com/boudinfl/pke

Sent2Vec:https://github.com/epfml/sent2vec

Doc2vec:https://github.com/jhlau/doc2vec

EmbedRank & EmbedRank++:https://github.com/swisscom/ai-research-keyphrase-extraction

Reference


[1] MMR(最大边界相关算法)_Forlogen的博客-CSDN博客_mmr算法

目录
相关文章
|
网络协议 网络架构
计算机网络期末复习——计算大题(一)
计算机网络期末复习——计算大题(一)
682 0
计算机网络期末复习——计算大题(一)
|
机器学习/深度学习 人工智能 算法
|
5月前
|
缓存 IDE 调度
【HarmonyOS Next之旅】基于ArkTS开发(一) -> Ability开发一
本文介绍了HarmonyOS中的FA模型及其开发相关内容,包括PageAbility与ServiceAbility的开发方法。FA模型下的Ability分为多种类型,如PageAbility(带UI,用户可见可交互)、ServiceAbility(无UI,在后台提供服务)等。文章详细阐述了PageAbility的生命周期、启动模式及接口使用,并通过代码示例展示了如何启动本地PageAbility和重写生命周期函数。
167 12
|
6月前
|
传感器 数据采集 人工智能
可穿戴设备中的生物识别技术:连接人体与数据的桥梁
可穿戴设备中的生物识别技术:连接人体与数据的桥梁
132 7
|
6月前
|
数据可视化 网络安全 数据库
YashanDB安装初始环境调整
本文档来源于YashanDB官网,主要介绍YashanDB安装前的环境准备与配置。内容涵盖端口开放规则(包括默认端口号和分配原则)、防火墙设置(关闭或添加白名单)、SSH服务开启以及共享集群部署时的环境清理等关键步骤。确保按照指引正确配置端口和环境,可有效避免安装过程中因网络或环境问题导致的失败。适用于单机、分布式及共享集群等多种部署形态。
|
9月前
|
云安全 监控 安全
AWS 云安全深度剖析:如何有效监测 SSH 暴力攻击
云基础设施多由基于Linux的机器主导,因其开源、低成本、可靠性和灵活性。然而,这些机器易受黑客攻击,尤其是通过SSH通道。SSH(安全外壳协议)用于加密连接,确保远程登录和文件传输的安全性。在AWS中,管理员通过SSH保护Linux实例的远程访问,但暴露SSH服务会增加暴力破解风险。攻击者利用暴力破解程序尝试获取访问权限,进而感染主机或窃取数据。为防御此类攻击,建议使用SIEM解决方案监控日志,检测异常登录行为,并阻止可疑IP地址。此外,避免公开暴露SSH服务,添加双因素身份验证等额外安全层,以增强云安全性。
160 17
|
移动开发 JavaScript 前端开发
为了学习vue3,安装nvm进行node的多版本管理
为了学习vue3,安装nvm进行node的多版本管理
287 2
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
BERT的继任者ModernBERT:融合长序列处理、代码理解与高效计算的新一代双向编码器
ModernBERT 是一个全新的模型系列,在**速度**和**准确性**两个维度上全面超越了 BERT 及其后继模型。
514 9
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
746 2
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
252 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model