论文赏析[AAAI18]面向序列建模的元多任务学习(二)

简介: 多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。

Meta-LSTM主要有如下两个优点:

  • 一个就是每个时刻的参数动态生成。
  • 另一个就是比普通的LSTM参数数量更少,因为有SVD分解。

实验


文本分类

文本分类任务是在16个购物网站评论数据集上做的,数据集大小如下所示:

image.png

最后在大多数数据集上,Meta-LSTM都能做到最好结果,具体结果如下:

image.png

序列标注

序列标注任务是在三个数据集上面做的,两个是NER数据集,一个是POS tagging数据集,具体结果如下:

image.png

只能说比最基础的LSTM+CRF模型高了那么一丢丢吧。

总结


本文提出了一种function-level的多任务共享机制,即使用Meta-LSTM来动态产生Basic-LSTM每个时刻的参数矩阵。

看完后我在想,这个动态参数生成的机制能不能用在成分句法分析上面,例如对于top-down的chart-based模型,可以自顶向下通过Tree-LSTM动态产生每一个树结点的参数矩阵,然后用这个参数矩阵来预测结点的label和split。


相关文章
|
3月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
48 1
[数模论文写作]模型的建立与求解(二)
[数模论文写作]模型的建立与求解(二)
|
机器学习/深度学习 算法 Python
[数模论文写作]模型的建立与求解(一)
[数模论文写作]模型的建立与求解
|
编解码 计算机视觉 网络架构
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(一)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(一)
339 0
|
数据可视化 计算机视觉
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
128 0
|
机器学习/深度学习
论文赏析[AAAI18]面向序列建模的元多任务学习(一)
多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。
518 0
论文赏析[AAAI18]面向序列建模的元多任务学习(一)
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
115 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
191 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 自然语言处理
|
自然语言处理
下一篇
无影云桌面