·阅读摘要:
在本文中,提出了模型HONLSTM-BERT,我觉得亮点有二:一是提出把标签的类别嵌入、标签的语义嵌入、文本三者混合,二是提出的层级模型中共享了一部分参数,并不是每个层级就是一个独立的模型。
·参考文献:
[1] 基于类别混合嵌入的电力文本层次化分类方法
【注一】:从论文贴出来的准确率(下图)来看,我觉得论文提出的模型相比于TextCNN、DPCNN这些baseline,还是吃了BERT的“红利”。
HONLSTM-BERT模型
模型图如下所示:
模型还是比较一目了然的。在多层级中,可以发现ON-LSTM层
和Max Pooling层
的参数是共享的,即每层用的是同一个ON-LSTM层
和Max Pooling层
。
嵌入层是用的BERT
来编码的。
wse(p)表示上一层预测出来的标签p的文本嵌入词向量,会与文本词向量进行拼接。
pos(p)表示上一层预测出来的标签p的位置向量,是one-hot编码。
【注二】:写作技巧感觉还是,新领域+改模型。这篇论文的小trick是用改进的BERT模型与baseline作比较。