End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文

简介: 传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WSJ词性标注任务和CoNLL 2003 词性标注数据集上取得优异的成绩,前者97.55%的准确率,后者取得91.21%的F1值。

简介


  • 传统序列标注模型存在的问题:
  1. 大多数基于线性的统计语言模型
  2. 基于大量的人工特征
  3. 需要大量的外部数据,比如名称库
  4. 普适性差
  • 近几年的序列标注模型:
    尽管这些使用一些分布式表示,例如词嵌入作为输入,但是仅仅是为了增加手工特征而不是替换它;另一方面,如果这些模型完全依赖于神经嵌入,那么性能下降非常快
  • 本文贡献
    (i) proposing a novel neural network architecture for linguistic sequence labeling.
    (ii) giving empirical evaluations of this model on benchmark data sets for two classic NLP tasks.
    (iii) achieving state-of-the-art performance with this truly end-to-end system.


神经网络结构


  • 第一步:CNN获取Character-level 的词表示

    107.png

    在这里,CNN的优点是可以高效地学习形态学特征,比如单词的前缀或者后缀、大小写等


  • 第二步:Bi-directional LSTM
    将第一步获得的单词表示和训练好的词向量结合起来,作为Bi-directional LSTM的输入,得到每个状态的表示。注意,BLSTM的输入和输出都过了Dropout层


  • 第三步:CRF
    将Bi-LSTM的输出向量作为CRF层的输入,最终预测出序列

    108.png


训练


参数以及实验部分请参考论文,这里不详细解释了。最终的结果当然很棒了


109.png


总结


其实这篇论文是2016年ACL的论文,自己现在看实在太晚了,但是总结自己以前看的论文,感觉这篇文章基本上提出了一个base model,BiLSTM-CNN-CRF,以后会经常看到文章都是基于这种结果衍生的。最后自己找了一个基于Pytorch的开源代码,有详细的实现过程。 End-to-end-Sequence-Labeling-via-Bi-directional-LSTM-CNNs-CRF-Tutorial

相关文章
|
机器学习/深度学习 自然语言处理 算法
基于Attention、LSTM的安卓聊天机器人 附代码论文 答辩ppt
基于Attention、LSTM的安卓聊天机器人 附代码论文 答辩ppt
203 0
基于Attention、LSTM的安卓聊天机器人 附代码论文 答辩ppt
|
机器学习/深度学习 自然语言处理 PyTorch
【35】Sequence序列网络介绍与使用(含RNN,RNNCell,LSTM,LSTMCell的调用)
【35】Sequence序列网络介绍与使用(含RNN,RNNCell,LSTM,LSTMCell的调用)
277 0
【35】Sequence序列网络介绍与使用(含RNN,RNNCell,LSTM,LSTMCell的调用)
|
机器学习/深度学习
序列模型简介——RNN, Bidirectional RNN, LSTM, GRU
序列模型大集合——RNN, Bidirectional RNN, LSTM, GRU
6256 0
|
机器学习/深度学习 网络架构 编解码
(转) 干货 | 图解LSTM神经网络架构及其11种变体(附论文)
干货 | 图解LSTM神经网络架构及其11种变体(附论文) 2016-10-02 机器之心   选自FastML 作者:Zygmunt Z. 机器之心编译  参与:老红、李亚洲   就像雨季后非洲大草原许多野生溪流分化成的湖泊和水洼,深度学习已经分化成了各种不同的专门架构。
|
5月前
|
机器学习/深度学习 API 异构计算
7.1.3.2、使用飞桨实现基于LSTM的情感分析模型的网络定义
该文章详细介绍了如何使用飞桨框架实现基于LSTM的情感分析模型,包括网络定义、模型训练、评估和预测的完整流程,并提供了相应的代码实现。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。
|
5月前
|
机器学习/深度学习
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
214 2
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
RNN、LSTM、GRU神经网络构建人名分类器(三)
这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
|
7月前
|
机器学习/深度学习 数据采集
RNN、LSTM、GRU神经网络构建人名分类器(一)
这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。

热门文章

最新文章