TripleRank An unsupervised keyphrase extraction algorithm

简介: Triple是2021年吉林大学提出的一种无监督关键词抽取算法,在四个数据集上实现了SOTA。其实也就是模型集成。(EmbedRank、TopicRank、PositionRank)

TripleRank: An unsupervised keyphrase extraction algorithm


TripleRank简介


Triple是2021年吉林大学提出的一种无监督关键词抽取算法,在四个数据集上实现了SOTA。其实也就是模型集成。(EmbedRank、TopicRank、PositionRank)


作者使用了关键词语义多样性、关键词覆盖率和位置信息来构建TripleRank。通过它们三者的混合得分得出最终的分数。不像传统的图迭代算法,TripleRank不需要迭代。


本文的主要贡献:


1.我们解决了一个常见问题,其中几个提取的短语包含相同的高分单词。语意重复问题


2.提出并分析了解决该问题的两个概念:关键词覆盖和关键词语义多样性的原因和意义。


3.我们提出了TripleRank,一种基于关键词覆盖率、关键词语义多样性和位置信息的方法,与最新模型相比,该方法具有更好的精度。


4.我们提出了一个计算效率高的模型,该模型是部分预先训练的,在主体中没有典型的迭代过程。


TripleRank实现


2b728630912f45f595ef66d722ef804e.png


图1 TripleRank算法模型框架


关键词覆盖分数评估提取的关键词可以表示文档内容的广度。我们发现,候选词和文档其他词的相似性对关键词覆盖率的评分有效,因为相似性越高,代表越好。为了去衡量这种相似性,我们将词嵌入到字向量,该向量拥有通常关联的相邻单词的语义信息。因此,我们使用字向量来衡量候选词和其他词的接近程度,从而评估其覆盖程度。关键词语义多样性得分通过涉及更多主题来提高关键词的准确性,以避免短语涉及排名表中相同的意义加权词的情况。我们使用主题模型LDA,来评估关键词的语义多样性。尽管针对关键词语义多样性有充分可行的主题模型和解决方案,但它们相对更复杂。LDA模型是一个研究得很好、适用性很广的模型,可以最好地提高我们模型的性能。关键词语义得分是根据候选人所属主题的概率来计算的。利用LDA输出的主题分布,我们可以提高主题在提取结果中的影响,以避免语义相似的短语。位置信息得分由位置顺序获得,位置顺序受PositionRank的启发;然而,我们没有使用PageRank过程,只保留了位置权重。最后的分数是通过合并三个特征的归一化分数来计算的。


关键词覆盖


使用word2vec模型将字转化成向量的形式。word2vec存在两个方式:Continue bag-of-words(CBOW)和skip-gram。CBOW通过上下文来预测中间词,在小型数据集效果更好;skip-gram使用中间词来预测上下文,在大型数据集表现更好。


当输入一系列的词w 1 , w 2 , . . . , w t  被输入到skip-gram模型进行训练,目的是最大化平均概率:


image.png


单词的后验分布通过输出层上的softmax函数进行输出:


image.png


通过共享相同的权重矩阵面板,在输出层上计算出C个后验分布,或者是C 个上下文文字的预测。为了最大化公式(1)和(2),最大化l o g p ( w w + j ∣ w t )的表示。然而,skip-gram通过softmax公式要求更多计算资源来计算deltas logp(w0|w1)。


使用余弦相似度来计算所有关键词对的相似度:


image.png


C o v e r a g e ( )是这个覆盖得分,S i m i l a r i t y ( )是余弦相似度来计算两个字向量,image.png 是文档中除了w i 的其他字向量。


位置信息


位置信息是一个重要信息,最初被提出从PositionRank。PositionRank主要分成以下三个步骤:


1.字水平的图的构建。

2.基于位置的PageRank算法。

3.候选词的构成。


定义以下信息。P是文档d中单词出现的字数总和。位置信息的得分为计算如下:让文档d dd成为包含单词w i 的关键字提取文档,则p w i 的权重值被计算按照出现位置的倒数累计和:


image.png


position α是词w i 是α t h 出现的位置。


最终每个词的位置得分计算如下:


P o s i t i o n ( w i ) = p w i


关键词语义多样性


关键词多样性有LDA进行评估,LDA是一种用于离散数据集合的生成概率模型,采用三级贝叶斯模型。LDA模型可以生成文档和单词的主题分布。LDA模型在TripeRank中是用于描述三个重要特征之一,关键字语义多样性。作者的目标是最大限制地提高主题多样性,并对提取结果中消除具有相似语义的不同形式的短语。因此,单词和短语的主题概率被打分,并在最终得分中排名。


9a257a600b3e423ab1020d7729a582ea.png


图2 LDA算法模型架构


LDA模型通过模板、主题模板、文档模板和但此模板的采样过程来生成单词。假设语料库W 包括V 个单词、M 个带有N m 单词的文档和K 个主题。上述过程可用Dirichlet多项式单图模型描述,该模型基于以下理论:


image.png


image.png 是超参数,image.png是文档m 的主题混合比例,image.png是主题k 的混合组成部分,z m n 是文档m中的第n 个单词选择主题的混合指示符,w m n 是文档m 中的第n 个单词的术语指示符。


网络是由两个Dirichlet多项式单图模型构成的生成过程。:


image.png


→ 表示采样处理。联合分布可以考虑因素。吉布斯采样是马尔可夫蒙特卡洛模拟的一个特例,它被用作LDA中近似推理的一种方法。


image.png


i=(m,n)对应文档m的第i个词,t tt是w m n的术语,image.png是计数统计。


需并联的过程很短暂。我们随机将主题提示符z随机分配给语料库的每个单词w。随后,我们使用公式(10)对主题进行采样,知道吉布斯收敛。主题词共现矩阵是LDA模型的结果。输出是单词词典和主题概率分布。单词的最高概率主题被视为这个单词的主题。


关键词语义多样性的得分是候选词的可能性:


image.png


其中w i 和z i 分别代表候选主题和w i 所属主题。


排名机制


合并三个特征得分,针对覆盖度和位置信息,使用归一化操作:


image.png


w i  是关键词,C i 是归一化的关键词覆盖度得分,v 是候选词的数量,P i 是归一化的位置得分。由于关键词的语义多样性已经归一化处理,所以不需要再次归一化。


结合策略被分成两个部分:


1.关键词语义多样性得分和关键词覆盖率得分之间的加权和。

2.使用1中的结果和位置得分之间进行加权求和。


两者的权重求和如下式所示:


image.png


N z i 在相同主题下词的数量,v是候选词数。D i 是关键词覆盖度和语义多样性的合并得分。


最终再结合位置信息,按照以下公式进行加权得到最后的得分:


image.png

19b173fa25e448559c2e294404cdea89.png



图3 TripleRank算法伪代码


TripleRank实验


实验数据集:Knowledge Discovery、Data Mining(KDD)


、World Wide Web Conference(WWW)(参考文献1)、Inspec(参考文献2)


、Document Understanding Conference(DUC)。


表1 各种模型在四个数据集上的实验效果

8e2a0ee318db4346b7485cbdfa228f0c.png


TripleRank总结


TripleRank是一个新的SOTA在无监督关键词抽取任务中,它不像传统图的随机游走迭代更新权重算法,它不需要构建图进行迭代。文章主要提出了三个特征,主要是语义覆盖度、语义多样性、位置信息。分别借鉴了EmbedRank、TopicRank和Position的思想。LDA模型可以去尝试了解一番。


参考文献


1.S.D. Gollapalli, C. Caragea, Extracting keyphrases from research papers using citation networks, in: Presented at the Twenty-eighth Aaai Conference on Artificial Intelligence, 2014.


2.A. Hulth, Improved automatic keyword extraction given more linguistic knowledge, in: Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003, pp. 216–223.

目录
相关文章
|
机器学习/深度学习 自然语言处理 达摩院
Rethinking Information Extraction :信息抽取的现状与未来
​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于
6011 0
|
存储 编解码 算法
凹凸贴图和法线贴图的区别
凹凸贴图适用于一些简单的凹凸效果,而法线贴图则更适合提供更高精度和真实感的凹凸纹理效果
732 1
|
机器学习/深度学习 存储 编解码
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
13561 1
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
|
5月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
268 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
9月前
|
人工智能 vr&ar
TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式
TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。
626 3
TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式
|
11月前
|
JavaScript 前端开发 开发者
ThreeJs控制模型骨骼实现数字人
这篇文章讲解了如何使用Three.js通过控制模型的骨骼来实现数字人的动态表现,包括加载模型、获取骨骼信息以及通过编程控制骨骼动作的具体方法。
1177 1
DC-MOTOR直流电机的simulink建模与性能仿真
使用MATLAB2022a和Simulink构建的DC电机模型进行仿真,展示了电机在240V电枢电压和150V励磁绕组输入下的性能。仿真输出包括转速、电枢及励磁电流、电磁转矩随时间的变化。结果以图像形式呈现,揭示了电机在洛伦兹力和电磁感应定律作用下的工作原理,通过电流与磁场的交互转换电能为机械能。直流电机借助换向器维持稳定的电磁转矩,并遵循法拉第电磁感应定律和楞次定律。
|
机器学习/深度学习 算法 数据可视化
Open3D Mesh 网格
Open3D Mesh 网格
455 2
|
机器学习/深度学习 人工智能 并行计算
Pytorch Lightning使用:【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】
Pytorch Lightning使用:【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】
1110 0
|
前端开发 JavaScript 搜索推荐
SPA与MPA:如何选择?
在互联网技术的发展中,单页应用(SPA)和多页应用(MPA)逐渐成为两种主流开发方式。本文将比较SPA和MPA的优缺点,帮助读者更好地选择适合自己的应用类型。