JointKPE关键词抽取论文算法解读

简介: 这篇论文是清华大学2021年的论文,主要目的是在开放领域进行关键词/短语抽取。作者提出了一种模型叫做JointKPE,是建立在预训练语言模型上的开放领域关键词抽取模型

Capturing Global Informativeness in Open Domain Keyphrase Extraction


JointKPE简介


这篇论文是清华大学2021年的论文,主要目的是在开放领域进行关键词/短语抽取。作者提出了一种模型叫做JointKPE,是建立在预训练语言模型上的开放领域关键词抽取模型,它能捕捉局部的短语和全局的信息。JointKPE通过评估关键短语在整个文档中的的信息量对其进行排序,并在关键短语组块任务上接受联合训练,以确定最后的关键词短语。


高质量的关键词/短语抽取主要依赖 phraseness和informativeness两个要素,目前的神经网络方法在关键词抽取算法中主要体现的是 phraseness,给予优先考虑,这是因为这些方法更加侧重与建模关键短语的本地化语义特征,而不是全局文档信息。神经网络方法倾向于从开放领域文档中抽取具有语义完整性的关键短语,如n-grams和head-ish实体,而长尾短语有时候传达着更加重要的信息。


JointKPE方法


对于一个文档D,JointKPE先通过n-gram枚举抽取出所有的候选关键词p,并利用层级结构去建模n-gram表示。基于n-gram表示,JointKPE使用信息排序网络来整合多次出现词的局部信息得分,来估计词在文档的全局信息得分。在训练过程中,JointKPE和关键词组块任务联合训练,来平衡phraseness和informativeness。


N-gram Representation:使用BERT对文档进行编码,将文档D = { w 1 , . . . , w i , . . . , w n } 进行输入,输出字的embedding表示H = { h 1 , . . . , h i , . . . , h n },总结来说就是下式1,将BERT看成一个函数:


H = B E R T { w 1 , . . . , w i , . . . , w n }


其中h i 是字w i 的向量表示。


为了从文档D 中枚举出候选关键词,这个字向量将被添加到n-gram表示中去,一旦出现一定格式的n-grams后,我们将使用一系列卷积神经网络对其进行提取特征。当文档中从第i个字开始,有一个k-gram的词,那么image.png

将被CNN进行计算:


image.png


每一个k-gram将被输入到对应的C N N k 中去,其中k(1≤k≤K)。K 是n-gram的最大长度。


Informative Ranking:为了评估n-gram的image.png的信息在局部的内容,JointKPE使用前向传播层去映射它的精确的内容image.png的得分:


image.png


进一步计算文档的不同上下文多次出现的词的全局信息得分,具体来说,让词p k 是文档D 中长度为k且多次出现的词。这个短语出现在文档的不同内容中image.png这将被划分局部信息得分image.png对于多次出现的词,JointKPE将根据她的本地化信息得分应用最大池化,以确定其全局信息得分f ∗ ( p k , D ) :


image.png


然后去评估文档的D 中所有词的全局信息得分,JointKPE通过成对出现的排名损失函数(the pairwise ranking loss)能学习每个词在文档的的全局信息得分:


image.png


在同一文档D 中,排名损失L R a n k 要求JointKPE去排序关键词p + 在非关键词p _ 的前面。


Keyphrase Chunking:去强化n-gram水平下关键词的测试,JointKPE结合关键词分块任务(the keyphrase chunking task)去直接测试和预测n-grams关键词的概率,去优化分类损失L C h u n k


image.png


image.png是而二分类标签,它将致力于判断n-gram image.png是否精确地匹配上正确的标注。


Mukti-Task Training:JointKPE的训练的最终目标是最小化信息排名损失L R a n k 和关键短语分块损失L C h u n k 的线性组合。


L = L R a n k + L C h u n k


在被给文档中最终排名靠前的候选关键词将会得到更高的全局信息得分。


JointKPE实现


数据集:OpenKP、KP20k

代码:https://github.com/thunlp/BERT-KPE

评价指标:precision、recall、f-measure(F1@ @@{1,3,5})


JointKPE结果展示


表1 各种不同模型在两个数据集上的结果


5b10d93194fc498ba1138cc67c3f991b.png

57b9bfe3bc6943d690934be8b176f8c7.png


图1 关键词长度分析


JointKPE总结


JointKPE是基于预训练语言模型在开放领域关键词抽取的模型,它能捕捉本地短语信息和全局信息,有监督关键词抽取。展示JointKPE在开放领域和科学场景以及不同预训练模型中的有效性。综合实证研究进一步表明,JointKPE可以缓解以往神经网络关键词抽取方法中偏好较短且实体风格的关键短语的问题,并在不同长度和不同类型的关键短语上表现出更均衡的性能。

目录
相关文章
|
3月前
|
自然语言处理 算法
文本分析-使用jieba库实现TF-IDF算法提取关键词
文本分析-使用jieba库实现TF-IDF算法提取关键词
92 1
|
4月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2021 - 基于自引导和交叉引导的小样本分割算法
【论文速递】CVPR2021 - 基于自引导和交叉引导的小样本分割算法
23 0
|
5月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
303 1
|
7月前
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
9月前
|
机器学习/深度学习 编解码 算法
【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读
图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor
1913 10
【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读
|
9月前
|
算法 数据可视化 自动驾驶
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
115 0
|
9月前
|
算法
【改进粒子群优化算法】基于惯性权重和学习因子动态调整的粒子群算法【期刊论文复现】(Matlab代码实现)
【改进粒子群优化算法】基于惯性权重和学习因子动态调整的粒子群算法【期刊论文复现】(Matlab代码实现)
【改进粒子群优化算法】基于惯性权重和学习因子动态调整的粒子群算法【期刊论文复现】(Matlab代码实现)
|
9月前
|
算法
【改进灰狼优化算法】改进收敛因子和比例权重的灰狼优化算法【期刊论文完美复现】(Matlab代码实现)
【改进灰狼优化算法】改进收敛因子和比例权重的灰狼优化算法【期刊论文完美复现】(Matlab代码实现)
|
9月前
|
自然语言处理 算法 网络架构
YAKE!无监督关键字抽取算法解读
RAKE遵循由启发式方法支持的无监督方法,该方法可以在短时间内轻松扩展到不同的集合、域和语言。
180 0
|
9月前
|
自然语言处理 算法 搜索推荐
TF-IDF、TextRank关键字抽取排序算法
TF-IDF称为词频逆文本,结果严重依赖文本分词之后的效果。其公式又可以分成词频(Term Frequency,TF)的计算和逆文档概率(IDF)的计算。
97 0