本期给大家介绍的是康奈尔大学Fei Wang教授课题组在AAAI-19上发表的一篇关于医学命名实体识别和标准化的文章。该文章提出了一种新的深层神经多任务学习框架,该框架采用显示反馈策略来联合建模医学命名实体识别和标准化,并将这两个分层任务转化为并行多任务,同时保持了任务之间的相互联系,使得实体识别和标准化模型的性能都得到了很大的提升。
1
介绍
医学命名实体识别(MER)的标准化(MEN)的目标是找到实体边界,并将它们映射到受控词汇表上。最新研究表明,联合建模医学命名实体识别和标准化,比流水线模型具有更精确的效果。流水线模型有两个主要的局限性:(1)识别标记错误会导致标准化错误;(2)识别和标准化是互惠互利的,但流水线模型不能利用这些潜在的好处。许多学术者已经提出了一些联合建模医学命名实体识别和标准化的方法,但这些方法任然存在一些缺点:(1)严重依赖手工特征和特定任务资源,不能对字符级、语义级等复杂的特征进行编码;(2)使用简单的方法对医学命名实体识别和标准化进行联合建模,不能为两者提供必要的相互支持。
为了解决这些问题,文章提出了一种新的具有显示反馈策略的深度神经多任务学习(MTL)框架,来联合建模实体识别和标准化。这种方法可以更先进、更智能的利用实体识别和标准化之间的互惠关系,并通过具有正则化效应的多任务学习,为两个任务提供通用表示,最大限度地减少了特定任务的过度适应,使学习到的表示在任务之间更具有普遍性。其次,该方法可以将分层任务转换为并行多任务,同时保持任务之间的相互支持。该方法的创新之处在于它结合了从低级任务到高级任务,高级任务到低级任务的反馈策略。使层次化任务(MER和MAN)在保持任务间相互支持的同时,转化为并行多任务模式成为可能。
在本文中,作者将MER和MEN看做两个并行的任务。MER和MEN采用相同的输入但具有不同的输出。对于每个单词序列w1,…,wn,MEN输出来自不同标签集合的标签序列。因此,可以将MEN视为具有与MER相同的输入的序列标记任务。文章使用Bi-LSTM来支持文本的顺序建模,用CNN来编码隐藏在字符级特征(如Zolmitritan、Zomig和Zomigon)中的线索。
2
方法
2.1 符号说明
2.2 模型
文章模型分三个步骤完成:1)用CNN从单词中提取字符表示信息(如单词前缀或后缀);2)用Bi-LSTM进行序列标记;3)显示反馈策略的多任务模型将MER和MEN转换成并行任务。
本文使用字符嵌入作为CNN的输入,没有字符类型特征,并且在CNN之前对字符嵌入应用一个dropout层。
每个词的特征经过CNN提取后都被传送到forward LSTM和backward LSTM。每个网络在每个时间步长的输出由线性层和log-Softmax层解码成每个标签类别的对数概率。然后将这两个矢量简单地相加,产生最终输出。其工作原理如式1所示:
作者认为vi=Fθ(x1:n,i)是在焦点单词wi周围的无限窗口,然后使用多类分类函数f(vi)的输入来向每个输入位置i分配标签yi。标签之间没有交集。或者,将Bi-LSTM的输出向量馈送到CRF层,以联合解码最佳标签序列。对于MER和MEN的k层Bi-LSTM标记器得到:
其中E是词嵌入函数。
经过Bi-LSTM提取标签序列特征后,文章尝试了一种基于堆栈Bi-LSTM、CNN和CRF的多任务学习架构。多任务学习可以看作是一种通过与其他归纳法共享表示来标准化模型归纳的方法。作者使用堆叠的Bi-LSTM-CNNS-CRF与来自多个任务的任务监督,共享Bi-LSTM-CNNs层。其工作原理如图1所示:
图1 神经多任务学习模型的主要结构
3
实验
3.1 数据集
作者在实验中使用了两个数据集:
BC5CDR:包含1500篇PubMed摘要,这些摘要平均分为三个部分,训练集、验证集和测试集。每个摘要中提到的一个疾病都是用它所指的受控词汇表的概念标识符手动注释的。
NCBI Disease:NCBI疾病语料库由793篇PubMed摘要组成,这些摘要又分为训练(593)、验证(100)和测试(100)子集。NCBI疾病语料库使用MeSH或OMIM中的概念标识符,用疾病提及进行注释。
3.2 参数设置
作者分别用四种公开的预训练的词嵌入来初始化单词嵌入矩阵:Word2Vec、GloVe、Senna和randomly initialized。使用概念精度、召回率和F1来评估模型性能。采用动量梯度下降优化模型,dropout rate=0.5,学习率为0.001,动量为0.9,持续20个时期。
3.3 实验结果
为了评估MTL模型的有效性,作者将其与现有的实体识别和标准化模型进行了比较,其结果如表2所示。整个表格分为6个部分,第一部分证明了联合模型要显著优于流水线模型;第二部分证明了添加CRF层并不能带了显著改善,而添加CNN层能够提取字符级信息提高模型准确率;第三部分证明了多任务学习同样能够提高模型性能;第四和第五部分分别在MER和MEN任务的反馈进行的改进,证明了反馈策略都能提高这两个任务的性能,其中对MER效果尤为明显;最后一部分展示了将Bi-LSTM、多任务学习(MTL)和MER,MEN的反馈策略联合起来的模型效果,最终证明了文章提出的模型效果是最优的。
3.4 其他实验
除此之外,作者还证明了dropout层、词嵌入对模型性能的影响,实验表明了有dropout层和使用在PubMed摘要和全文文章上训练的Word2vec嵌入的模型效果更佳。最后作者还分析了普通模型和本文模型的边界不一致误差,实验结果表明MTL可以显著的缓解MER和MEN边界不一致问题,从而提高模型性能。
4
总结
以往的研究表明,医学命名实体识别与规范化之间是是互惠互利的。为了更先进、更智能地利用两者之间的关系,文章提出了一种新的具有两种显式反馈策略的深层神经多任务学习框架来联合建模MER和MEN。该方法可以将分层任务,即MER和MEN,转换成并行的多任务模式,并在任务之间保持相互支持。实验结果表明,这样的模型优于以往的任何模型。