Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter
论文简介
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
Twitter限制长度在140个字。和几百字文档关键词抽取相比,从短文档中提取关键短语更加困难,因为短文档中很难使用到词频的统计特征。
数据少,基本没有公开的数据资源;标签的效果难以衡量。
作者提出的这种RNN模型,可以用于联合处理关键字排名、关键字短语生成和关键字短语排名步骤。该RNN在结构上包含两层,第一层用于捕捉关键字信息,第二层在其基础上使用序列标注方法。
论文实现
图1 作者提出的RNN关键词提取模型
RNN模型可以用以下公式来表示:
其中是在t 时刻第l个层的结果;U l 和W l 分别是t−1时刻隐藏层的激活矩阵和t时刻底层的激活层矩阵。当l=1时,隐藏层将被计算,∅ l 是一个非线性函数,例如sigmoid激活函数。则第l 层的输出为:
其中V l 是第l层隐藏层的权重矩阵,φ l也是一种非线性矩阵,例如softmax激活函数。
联合的RNN计算如下:
最终的评估函数为:
给出N 个训练序列D =,则子目标公式计算如下:
d(a,b)函数代表的是向量a 和b之间的距离计算函数,可以是欧氏距离,交叉熵等计算函数。
图1 在Twitter上实现的具体算法流程图
论文结果展示
表1 各种模型在Twitter文本关键字抽取的效果
词嵌入更新比不更新效果更好;不同窗口大小会导致模型的效果不一样;常规参数α \alphaα设置大小也会影响模型抽取的效果。
图2 不同模型在使用不同的参数效果展示
论文总结
该论文使用RNN构建了一种有监督关键字抽取模型,相对于其他baseline模型,实现了较好的效果提升。主要在于直接从Twitter文本预料中直接可以抽取出关键字,然后再进行有监督的学习,所以效果才可以达到80%左右的效果。目前有监督效果都还可以,相对于无监督模型效果好特别多。
作者对比了RNN、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数α三者对模型的效果影响。
N、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数α三者对模型的效果影响。