Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读

简介: 该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。

Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter


论文简介


该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。


Twitter限制长度在140个字。和几百字文档关键词抽取相比,从短文档中提取关键短语更加困难,因为短文档中很难使用到词频的统计特征。


数据少,基本没有公开的数据资源;标签的效果难以衡量。


作者提出的这种RNN模型,可以用于联合处理关键字排名、关键字短语生成和关键字短语排名步骤。该RNN在结构上包含两层,第一层用于捕捉关键字信息,第二层在其基础上使用序列标注方法。


论文实现


9ae9c6a2ee23477f8af2664d1eaaca95.png


图1 作者提出的RNN关键词提取模型


RNN模型可以用以下公式来表示:


image.png


其中image.png是在t 时刻第l个层的结果;U l  和W l 分别是t−1时刻隐藏层的激活矩阵和t时刻底层的激活层矩阵。当l=1时,隐藏层将被计算image.png,∅ l 是一个非线性函数,例如sigmoid激活函数。则第l 层的输出为:


image.png


其中V l 是第l层隐藏层image.png的权重矩阵,φ l也是一种非线性矩阵,例如softmax激活函数。


联合的RNN计算如下:


image.png


最终的评估函数为:


image.png


给出N 个训练序列D =image.png,则子目标公式计算如下:


image.png


d(a,b)函数代表的是向量a 和b之间的距离计算函数,可以是欧氏距离,交叉熵等计算函数。


6d6bf44a0af84b5db0b3ecfe3e2300f5.png


图1 在Twitter上实现的具体算法流程图


论文结果展示


表1 各种模型在Twitter文本关键字抽取的效果


aff36308c7964341958156de5b475730.png


词嵌入更新比不更新效果更好;不同窗口大小会导致模型的效果不一样;常规参数α \alphaα设置大小也会影响模型抽取的效果。


149d71c25fba435ab9310c33c409ecf4.png


图2 不同模型在使用不同的参数效果展示


论文总结


该论文使用RNN构建了一种有监督关键字抽取模型,相对于其他baseline模型,实现了较好的效果提升。主要在于直接从Twitter文本预料中直接可以抽取出关键字,然后再进行有监督的学习,所以效果才可以达到80%左右的效果。目前有监督效果都还可以,相对于无监督模型效果好特别多。


作者对比了RNN、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数α三者对模型的效果影响。


N、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数α三者对模型的效果影响。

目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
解码语言:命名实体识别(NER)技术
解码语言:命名实体识别(NER)技术
解码语言:命名实体识别(NER)技术
|
Web App开发 数据可视化 搜索推荐
博士科研最好用的科研绘图工具有哪些?
该博客介绍了几种博士科研中最好用的科研绘图工具,包括ChiPlot、Veusz、Echarts、MeedPeer和Python可视化库,并提供了它们的优缺点分析。
524 2
博士科研最好用的科研绘图工具有哪些?
|
Ubuntu 开发者 Python
|
测试技术 uml
UML 建模语言的基础概念与应用
【8月更文第23天】UML (Unified Modeling Language) 是一种用于系统架构设计的标准建模语言。
483 1
|
存储 网络协议 机器人
车载以太网权威指南阅读笔记
车载以太网权威指南阅读笔记
|
消息中间件 Kafka 程序员
Kafka面试必备:深度解析Replica副本的作用与机制
**Kafka的Replica副本是保证数据可靠性的关键机制。每个Partition有Leader和Follower副本,Leader处理读写请求及管理同步,Follower被动同步并准备成为新Leader。从Kafka 2.4开始,Follower在完全同步时也可提供读服务,提升性能。数据一致性通过高水位机制和Leader Epoch机制保证,后者更精确地判断和恢复数据一致性,增强系统容错能力。**
419 1
|
机器学习/深度学习 数据采集 人工智能
大模型开发:解释特征工程的重要性以及你如何进行特征选择。
特征工程对机器学习和深度学习至关重要,涉及数据清洗、转换和特征选择,以提升模型预测和泛化能力。它能提高数据质量、浓缩信息、优化模型性能及增强解释性。特征选择是关键步骤,包括过滤法、递归特征消除、嵌入式(如L1正则化)、包裹式和基于模型的方法。此过程通常迭代进行,结合多种工具和业务知识,并可通过自动化技术(如AutoML)简化。
874 0
|
机器学习/深度学习 算法 计算机视觉
【美团技术】基于多模态信息抽取的菜品知识图谱构建
【美团技术】基于多模态信息抽取的菜品知识图谱构建
|
存储 安全 网络安全
Git 安全远程访问:SSH 密钥对生成、添加和连接步骤解析
SSH(Secure Shell)是一种用于安全远程访问的协议,它提供了加密通信和身份验证机制。在使用 SSH 连接到远程 Git 存储库时,您可以使用 SSH 密钥对来确保安全性。以下是关于如何生成和使用 SSH 密钥对的详细步骤: 生成 SSH 密钥对
752 2
|
Java 测试技术 Python
《手把手教你》系列技巧篇(三十七)-java+ selenium自动化测试-日历时间控件-上篇(详解教程)
【5月更文挑战第1天】该文介绍了使用Selenium自动化测试网页日历控件的方法。首先,文章提到在某些Web应用中,日历控件常用于选择日期并筛选数据。接着,它提供了两个实现思路:一是将日历视为文本输入框,直接输入日期;二是模拟用户交互,逐步选择日期。文中给出了JQueryUI网站的一个示例,并展示了对应的Java代码实现,包括点击日历、选择日期等操作。
292 0