EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量;由候选短语本身之间的距离表示的多样性。**EmbedRank++**极大的保证了关键字的多样性,且不用F-Score来进行评估。
EmbedRank实现
(1) 基于词性序列从文本中提取候选短语。更准确地说,我们只保留那些由零个或多个形容词组成的短语,后跟一个或多个子名词。
(2) 使用句子嵌入来表示(嵌入)候选短语和文档本身在同一高维向量空间。(计算每个候选词向量、句子(段落)向量、文档向量)
(3) 对候选短语进行排序,以选择输出关键短语。
细节:句子(段落)级向量作者使用的是Sent2Vec模型,文档级向量作者使用的是Doc2vec。相似度计算使用的是**Cosine Similarity(余弦相似度)**方法。
EmbedRank++实现
EmbedRank模型抽取的关键字可能存在语义重复,例如:“molecular equivalence numbers”和“molecular equivalence indices”是表示一样的意思的短语。这样的现象可能导致用户有不好的使用体验。所以在此基础上,作者开拓了候选关键词语义的多样性,使用MMR(Maximal Marginal Relevance)。
MMR算法实现可以参照参考文献[1],广泛应用于信息检索和文本摘要领域。MMR的计算公式如下式(1)所示:
R 代表所有的检索文档,Q为输入的查询关键词,S 为最开始初始化的空集合(代表对于问题Q得出的最优回答),D i 和D j 表示被检索的文档, S i m 1 和S i m 2 表示相似度度量函数。当λ=1时,MMR计算标准的相关性排序列表,而当λ = 0 时,它计算R文档中的最大多样性排序。
为了将其应用到关键词抽取中,作者将其改为公式2:
其中C表示候选关键词,K 代表为抽取的关键词,doc是全文的向量表示,C i 和C j分别表示关键词i 和j ,是余弦相似度的计算公式。
通过MMR算法,EmbedRank++相对于EmbedRank算法所得的结果会更加考虑到候选关键词的多样性,可能可以更加有效地改善用户的使用体验。
EmbedRank实验
数据集:Inspec、DUC2001、NUS。
图1 EmbedRank和EmbedRank++在某文档的实验效果图
表1 各种模型在三种数据集上的实验结果
实现代码参考:
graph-tool:https://graph-tool.skewed.de.
co-occurence window on new sentence:https://github.com/boudinfl/pke
Sent2Vec:https://github.com/epfml/sent2vec
Doc2vec:https://github.com/jhlau/doc2vec
EmbedRank & EmbedRank++:https://github.com/swisscom/ai-research-keyphrase-extraction