Meta-LSTM主要有如下两个优点:
- 一个就是每个时刻的参数动态生成。
- 另一个就是比普通的LSTM参数数量更少,因为有SVD分解。
实验
文本分类
文本分类任务是在16个购物网站评论数据集上做的,数据集大小如下所示:
最后在大多数数据集上,Meta-LSTM都能做到最好结果,具体结果如下:
序列标注
序列标注任务是在三个数据集上面做的,两个是NER数据集,一个是POS tagging数据集,具体结果如下:
只能说比最基础的LSTM+CRF模型高了那么一丢丢吧。
总结
本文提出了一种function-level的多任务共享机制,即使用Meta-LSTM来动态产生Basic-LSTM每个时刻的参数矩阵。
看完后我在想,这个动态参数生成的机制能不能用在成分句法分析上面,例如对于top-down的chart-based模型,可以自顶向下通过Tree-LSTM动态产生每一个树结点的参数矩阵,然后用这个参数矩阵来预测结点的label和split。