论文赏析[AAAI18]面向序列建模的元多任务学习(一)

简介: 多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。

介绍


多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。

本文主要有如下三个贡献点:

  • 不同于以往的特征层的共享,本文模型提出了函数层的共享,也就是针对不同任务动态的生成不同的组合函数。
  • 不仅对于多任务,Meta-LSTM对于单任务也有提升,因为是动态生成参数,所以每个时刻的参数都不一样,可以更好地表示不同的短语语义。
  • 模型还可以被用作迁移学习,Meta-LSTM在训练完成后可以直接被用于新任务上面作为先验知识,而任务特定的LSTM就作为后验知识。

模型


任务介绍

本文主要在序列标注和文本分类两个任务上面做实验,而且是多任务的,序列标注包括NER和POS tagging,文本分类包括多个不同领域的文本分类。

传统模型

传统的多任务模型共享一个私有LSTM特征表示层,用这个私有LSTM学习出句子的表示,然后和词向量拼接共同输入到任务特定的公有LSTM去。具体结构如下图所示:

image.png

输出层每个任务都是不共享的,和一般的模型一样,这里就不介绍了。最终的损失函数为所有任务的损失函数加权之和。

多任务模型的训练策略如下所示:首先随机选择一个任务。然后从这个任务的数据集中随机选择一个mini-batch。然后用这个任务的mini-batch数据去训练并更新参数。不断重复以上三个过程。

这样就可以训练出一个适用于所有任务的多任务模型。

元多任务学习

传统模型只共享了特征表示层,也就是共享了私有LSTM。本文的模型创新就是通过Meta-LSTM动态生成针对每个任务、每个时刻不同的参数,然后用每个任务特定的Basic-LSTM进行编码。具体结构如下图所示:

image.png

其中Basic-LSTM的结构和普通的LSTM基本一样,唯一区别就是每个时刻的参数W和b是通过Meta-LSTM动态生成的,形式化定义如下:

image.png

因为W维度过大,计算复杂度太高,并且也容易导致过拟合,所以这里采用了SVD分解:

image.png

而这里的 image.png 就是通过Meta-LSTM动态生成的,形式化定义如下:

image.png

如果精简的表示出这个LSTM之间的关系,可以写成如下形式:

image.png

概括起来就是:Basic-LSTM上一个时刻的输出image.png、Meta-LSTM上一个时刻的输出image.png和当前时刻的单词表示image.png作为Meta-LSTM当前时刻的输入,产生的输出image.png用来产生Basic-LSTM当前时刻的参数矩阵。

相关文章
|
机器学习/深度学习
论文赏析[AAAI18]面向序列建模的元多任务学习(二)
多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。
513 0
论文赏析[AAAI18]面向序列建模的元多任务学习(二)
|
机器学习/深度学习 自然语言处理 计算机视觉
李飞飞力赞论文:描述视频密集事件新模型 !(附论文)
前几日李飞飞发了一条推文:   推文内容: 大意为:我的学生最近的论文被TechCrunch网站选为“计算机视觉最前沿的十篇论文”之一,我真是为它们感到骄傲。继Imagenet后,计算机视觉仍然在不断突破我们的想象力。
2268 0
|
网络架构 算法 数据可视化
基于归纳网络的少样本文本分类 | EMNLP 2019 会议论文解读
深度学习方法在数据稀缺的场景下往往表现很差,在这种挑战性的场景下,近期的工作往往使用meta-learning的方法来模拟少样本学习任务,通过在样本级别把query和支撑集进行比较来完成分类。
3316 0
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
258 0
【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
|
机器学习/深度学习 文件存储 计算机视觉
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
135 0
|
6月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
78 1
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
293 0
|
机器学习/深度学习 算法 文件存储
ImageNet分类精度再创新高!李飞飞组ECCV Oral提出全新渐进式神经结构搜索
神经网络结构搜索是谷歌的AutoML的一个具体分支。约翰斯霍普金斯大学刘晨曦博士和Alan Yullie 教授,以及Google AI的李飞飞、李佳等多名研究者提出渐进式神经网络结构搜索技术,论文被ECCV 2018接收作为Oral。本文中,第一作者刘晨曦详细分析了这一技术的原理以及设计细节。
3276 0

热门文章

最新文章