TripleRank An unsupervised keyphrase extraction algorithm

2023-08-01 113

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Triple是2021年吉林大学提出的一种无监督关键词抽取算法，在四个数据集上实现了SOTA。其实也就是模型集成。（EmbedRank、TopicRank、PositionRank）

TripleRank: An unsupervised keyphrase extraction algorithm

TripleRank简介

Triple是2021年吉林大学提出的一种无监督关键词抽取算法，在四个数据集上实现了SOTA。其实也就是模型集成。（EmbedRank、TopicRank、PositionRank）

作者使用了关键词语义多样性、关键词覆盖率和位置信息来构建TripleRank。通过它们三者的混合得分得出最终的分数。不像传统的图迭代算法，TripleRank不需要迭代。

本文的主要贡献：

1.我们解决了一个常见问题，其中几个提取的短语包含相同的高分单词。语意重复问题

2.提出并分析了解决该问题的两个概念：关键词覆盖和关键词语义多样性的原因和意义。

3.我们提出了TripleRank，一种基于关键词覆盖率、关键词语义多样性和位置信息的方法，与最新模型相比，该方法具有更好的精度。

4.我们提出了一个计算效率高的模型，该模型是部分预先训练的，在主体中没有典型的迭代过程。

TripleRank实现

图1 TripleRank算法模型框架

关键词覆盖分数评估提取的关键词可以表示文档内容的广度。我们发现，候选词和文档其他词的相似性对关键词覆盖率的评分有效，因为相似性越高，代表越好。为了去衡量这种相似性，我们将词嵌入到字向量，该向量拥有通常关联的相邻单词的语义信息。因此，我们使用字向量来衡量候选词和其他词的接近程度，从而评估其覆盖程度。关键词语义多样性得分通过涉及更多主题来提高关键词的准确性，以避免短语涉及排名表中相同的意义加权词的情况。我们使用主题模型LDA，来评估关键词的语义多样性。尽管针对关键词语义多样性有充分可行的主题模型和解决方案，但它们相对更复杂。LDA模型是一个研究得很好、适用性很广的模型，可以最好地提高我们模型的性能。关键词语义得分是根据候选人所属主题的概率来计算的。利用LDA输出的主题分布，我们可以提高主题在提取结果中的影响，以避免语义相似的短语。位置信息得分由位置顺序获得，位置顺序受PositionRank的启发；然而，我们没有使用PageRank过程，只保留了位置权重。最后的分数是通过合并三个特征的归一化分数来计算的。

关键词覆盖

使用word2vec模型将字转化成向量的形式。word2vec存在两个方式：Continue bag-of-words（CBOW）和skip-gram。CBOW通过上下文来预测中间词，在小型数据集效果更好；skip-gram使用中间词来预测上下文，在大型数据集表现更好。

当输入一系列的词w ₁ , w ₂ , . . . , w_t 被输入到skip-gram模型进行训练，目的是最大化平均概率：

单词的后验分布通过输出层上的softmax函数进行输出：

通过共享相同的权重矩阵面板，在输出层上计算出C个后验分布，或者是C 个上下文文字的预测。为了最大化公式(1)和(2)，最大化l o g p ( w_{w + j} ∣ w t )的表示。然而，skip-gram通过softmax公式要求更多计算资源来计算deltas logp(w₀|w₁)。

使用余弦相似度来计算所有关键词对的相似度：

C o v e r a g e ( )是这个覆盖得分，S i m i l a r i t y ( )是余弦相似度来计算两个字向量，是文档中除了w_i 的其他字向量。

位置信息

位置信息是一个重要信息，最初被提出从PositionRank。PositionRank主要分成以下三个步骤：

1.字水平的图的构建。

2.基于位置的PageRank算法。

3.候选词的构成。

定义以下信息。P是文档d中单词出现的字数总和。位置信息的得分为计算如下：让文档d dd成为包含单词w_i 的关键字提取文档，则p_{w i} 的权重值被计算按照出现位置的倒数累计和：

position α是词w_i 是α _{t h} 出现的位置。

最终每个词的位置得分计算如下：

P o s i t i o n ( w_i) = p _{w i}

关键词语义多样性

关键词多样性有LDA进行评估，LDA是一种用于离散数据集合的生成概率模型，采用三级贝叶斯模型。LDA模型可以生成文档和单词的主题分布。LDA模型在TripeRank中是用于描述三个重要特征之一，关键字语义多样性。作者的目标是最大限制地提高主题多样性，并对提取结果中消除具有相似语义的不同形式的短语。因此，单词和短语的主题概率被打分，并在最终得分中排名。

图2 LDA算法模型架构

LDA模型通过模板、主题模板、文档模板和但此模板的采样过程来生成单词。假设语料库W 包括V 个单词、M 个带有N _m 单词的文档和K 个主题。上述过程可用Dirichlet多项式单图模型描述，该模型基于以下理论：

是超参数，是文档m 的主题混合比例，是主题k 的混合组成部分，z _{m n}是文档m中的第n 个单词选择主题的混合指示符，w _{m n} 是文档m 中的第n 个单词的术语指示符。

网络是由两个Dirichlet多项式单图模型构成的生成过程。：

→ 表示采样处理。联合分布可以考虑因素。吉布斯采样是马尔可夫蒙特卡洛模拟的一个特例，它被用作LDA中近似推理的一种方法。

i=(m,n)对应文档m的第i个词，t tt是w _{m n}的术语，是计数统计。

需并联的过程很短暂。我们随机将主题提示符z随机分配给语料库的每个单词w。随后，我们使用公式(10)对主题进行采样，知道吉布斯收敛。主题词共现矩阵是LDA模型的结果。输出是单词词典和主题概率分布。单词的最高概率主题被视为这个单词的主题。

关键词语义多样性的得分是候选词的可能性：

其中w_i 和z_i 分别代表候选主题和w_i 所属主题。

排名机制

合并三个特征得分，针对覆盖度和位置信息，使用归一化操作：

w_i 是关键词，C _i 是归一化的关键词覆盖度得分，v 是候选词的数量，P _i是归一化的位置得分。由于关键词的语义多样性已经归一化处理，所以不需要再次归一化。

结合策略被分成两个部分：

1.关键词语义多样性得分和关键词覆盖率得分之间的加权和。

2.使用1中的结果和位置得分之间进行加权求和。

两者的权重求和如下式所示：

N _z_i在相同主题下词的数量，v是候选词数。D_i是关键词覆盖度和语义多样性的合并得分。

最终再结合位置信息，按照以下公式进行加权得到最后的得分：

图3 TripleRank算法伪代码

TripleRank实验

实验数据集：Knowledge Discovery、Data Mining(KDD)

、World Wide Web Conference(WWW)（参考文献1）、Inspec（参考文献2）

、Document Understanding Conference(DUC)。

表1 各种模型在四个数据集上的实验效果

TripleRank总结

TripleRank是一个新的SOTA在无监督关键词抽取任务中，它不像传统图的随机游走迭代更新权重算法，它不需要构建图进行迭代。文章主要提出了三个特征，主要是语义覆盖度、语义多样性、位置信息。分别借鉴了EmbedRank、TopicRank和Position的思想。LDA模型可以去尝试了解一番。

参考文献

1.S.D. Gollapalli, C. Caragea, Extracting keyphrases from research papers using citation networks, in: Presented at the Twenty-eighth Aaai Conference on Artificial Intelligence, 2014.

2.A. Hulth, Improved automatic keyword extraction given more linguistic knowledge, in: Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003, pp. 216–223.

TripleRank An unsupervised keyphrase extraction algorithm

TripleRank: An unsupervised keyphrase extraction algorithm

TripleRank简介

TripleRank实现

关键词覆盖

位置信息

关键词语义多样性

排名机制

TripleRank实验

TripleRank总结

参考文献

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

TripleRank An unsupervised keyphrase extraction algorithm

TripleRank: An unsupervised keyphrase extraction algorithm

TripleRank简介

TripleRank实现

关键词覆盖

位置信息

关键词语义多样性

排名机制

TripleRank实验

TripleRank总结

参考文献

热门文章

最新文章

相关电子书