EmbedRank论文解读

2023-08-01 140

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量；由候选短语本身之间的距离表示的多样性。**EmbedRank++**极大的保证了关键字的多样性，且不用F-Score来进行评估。

EmbedRank实现

（1）基于词性序列从文本中提取候选短语。更准确地说，我们只保留那些由零个或多个形容词组成的短语，后跟一个或多个子名词。

（2）使用句子嵌入来表示（嵌入）候选短语和文档本身在同一高维向量空间。（计算每个候选词向量、句子（段落）向量、文档向量）

（3）对候选短语进行排序，以选择输出关键短语。

细节：句子（段落）级向量作者使用的是Sent2Vec模型，文档级向量作者使用的是Doc2vec。相似度计算使用的是**Cosine Similarity（余弦相似度）**方法。

EmbedRank++实现

EmbedRank模型抽取的关键字可能存在语义重复，例如：“molecular equivalence numbers”和“molecular equivalence indices”是表示一样的意思的短语。这样的现象可能导致用户有不好的使用体验。所以在此基础上，作者开拓了候选关键词语义的多样性，使用MMR（Maximal Marginal Relevance）。

MMR算法实现可以参照参考文献[1]，广泛应用于信息检索和文本摘要领域。MMR的计算公式如下式（1）所示：

R 代表所有的检索文档，Q为输入的查询关键词，S 为最开始初始化的空集合（代表对于问题Q得出的最优回答），D_i 和D_j 表示被检索的文档， S_{i m 1} 和S _{i m 2} 表示相似度度量函数。当λ=1时，MMR计算标准的相关性排序列表，而当λ = 0 时，它计算R文档中的最大多样性排序。

为了将其应用到关键词抽取中，作者将其改为公式2：

其中C表示候选关键词，K 代表为抽取的关键词，doc是全文的向量表示，C_i 和C_j分别表示关键词i 和j ，是余弦相似度的计算公式。

通过MMR算法，EmbedRank++相对于EmbedRank算法所得的结果会更加考虑到候选关键词的多样性，可能可以更加有效地改善用户的使用体验。

EmbedRank实验

数据集：Inspec、DUC2001、NUS。

图1 EmbedRank和EmbedRank++在某文档的实验效果图

表1 各种模型在三种数据集上的实验结果

实现代码参考：

graph-tool：https://graph-tool.skewed.de.

co-occurence window on new sentence：https://github.com/boudinfl/pke

Sent2Vec：https://github.com/epfml/sent2vec

Doc2vec：https://github.com/jhlau/doc2vec

EmbedRank & EmbedRank++：https://github.com/swisscom/ai-research-keyphrase-extraction

EmbedRank论文解读

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

EmbedRank实现

EmbedRank++实现

EmbedRank实验

Reference

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

EmbedRank论文解读

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

EmbedRank实现

EmbedRank++实现

EmbedRank实验

Reference

热门文章

最新文章

相关课程

相关电子书