备案控制台

开发者社区人工智能文章正文

论文赏析[AAAI18]面向序列建模的元多任务学习（一）

2022-06-23 535

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多任务学习一般的模型是共享特征表示层，也就是最底层的特征表示层是共享的，上层的神经网络都是随具体任务而不同的。但是这有个问题，比如用LSTM对句子进行建模的时候，不同的短语的组合函数是一样的，比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好，于是这篇文章提出了针对不同的任务，不同的时刻产生不同的参数矩阵的动态参数生成方法。

介绍

多任务学习一般的模型是共享特征表示层，也就是最底层的特征表示层是共享的，上层的神经网络都是随具体任务而不同的。但是这有个问题，比如用LSTM对句子进行建模的时候，不同的短语的组合函数是一样的，比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好，于是这篇文章提出了针对不同的任务，不同的时刻产生不同的参数矩阵的动态参数生成方法。

本文主要有如下三个贡献点：

不同于以往的特征层的共享，本文模型提出了函数层的共享，也就是针对不同任务动态的生成不同的组合函数。
不仅对于多任务，Meta-LSTM对于单任务也有提升，因为是动态生成参数，所以每个时刻的参数都不一样，可以更好地表示不同的短语语义。
模型还可以被用作迁移学习，Meta-LSTM在训练完成后可以直接被用于新任务上面作为先验知识，而任务特定的LSTM就作为后验知识。

模型

任务介绍

本文主要在序列标注和文本分类两个任务上面做实验，而且是多任务的，序列标注包括NER和POS tagging，文本分类包括多个不同领域的文本分类。

传统模型

传统的多任务模型共享一个私有LSTM特征表示层，用这个私有LSTM学习出句子的表示，然后和词向量拼接共同输入到任务特定的公有LSTM去。具体结构如下图所示：

输出层每个任务都是不共享的，和一般的模型一样，这里就不介绍了。最终的损失函数为所有任务的损失函数加权之和。

多任务模型的训练策略如下所示：首先随机选择一个任务。然后从这个任务的数据集中随机选择一个mini-batch。然后用这个任务的mini-batch数据去训练并更新参数。不断重复以上三个过程。

这样就可以训练出一个适用于所有任务的多任务模型。

元多任务学习

传统模型只共享了特征表示层，也就是共享了私有LSTM。本文的模型创新就是通过Meta-LSTM动态生成针对每个任务、每个时刻不同的参数，然后用每个任务特定的Basic-LSTM进行编码。具体结构如下图所示：

其中Basic-LSTM的结构和普通的LSTM基本一样，唯一区别就是每个时刻的参数W和b是通过Meta-LSTM动态生成的，形式化定义如下：

因为W维度过大，计算复杂度太高，并且也容易导致过拟合，所以这里采用了SVD分解：

而这里的就是通过Meta-LSTM动态生成的，形式化定义如下：

如果精简的表示出这个LSTM之间的关系，可以写成如下形式：

概括起来就是：Basic-LSTM上一个时刻的输出、Meta-LSTM上一个时刻的输出和当前时刻的单词表示作为Meta-LSTM当前时刻的输入，产生的输出用来产生Basic-LSTM当前时刻的参数矩阵。

文章标签：

机器学习/深度学习

算法码上来

目录

相关文章

算法码上来

|

机器学习/深度学习

论文赏析[AAAI18]面向序列建模的元多任务学习(二）

多任务学习一般的模型是共享特征表示层，也就是最底层的特征表示层是共享的，上层的神经网络都是随具体任务而不同的。但是这有个问题，比如用LSTM对句子进行建模的时候，不同的短语的组合函数是一样的，比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好，于是这篇文章提出了针对不同的任务，不同的时刻产生不同的参数矩阵的动态参数生成方法。

算法码上来

513 0 0

论文赏析[AAAI18]面向序列建模的元多任务学习(二）

技术小能手

|

机器学习/深度学习自然语言处理计算机视觉

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

前几日李飞飞发了一条推文：推文内容：大意为：我的学生最近的论文被TechCrunch网站选为“计算机视觉最前沿的十篇论文”之一，我真是为它们感到骄傲。继Imagenet后，计算机视觉仍然在不断突破我们的想象力。

技术小能手

2268 0 0

开发者说

|

网络架构算法数据可视化

基于归纳网络的少样本文本分类 | EMNLP 2019 会议论文解读

深度学习方法在数据稀缺的场景下往往表现很差，在这种挑战性的场景下，近期的工作往往使用meta-learning的方法来模拟少样本学习任务，通过在样本级别把query和支撑集进行比较来完成分类。

开发者说

3316 0 0

征途黯然。

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

征途黯然。

258 0 0

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

-开发达人-

|

机器学习/深度学习文件存储计算机视觉

CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

-开发达人-

135 0 0

技术小能手

|

人工智能大数据

2017论文回顾 | Yann LeCun：中英日韩语文本分类通用编码机制（附论文下载）

技术小能手

1652 0 0

楠竹11

|

6月前

|

机器学习/深度学习算法网络架构

神经网络架构殊途同归？ICML 2024论文：模型不同，但学习内容相同

【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系，表明增大任一资源均可预测地提升性能。此外，论文指出模型宽度与深度对性能影响较小，较大模型在更多数据上训练能更好泛化，且能高效利用计算资源。研究提供了训练策略建议，对于神经语言模型优化意义重大，但也存在局限性，需进一步探索。论文链接：[https://arxiv.org/abs/2001.08361]。

楠竹11

78 1 1

技术小能手

|

机器学习/深度学习

Attention模型方法综述 | 多篇经典论文解读

技术小能手

3687 0 0

-开发达人-

|

机器学习/深度学习人工智能算法

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架

-开发达人-

293 0 0

技术小能手

|

机器学习/深度学习算法文件存储

ImageNet分类精度再创新高！李飞飞组ECCV Oral提出全新渐进式神经结构搜索

神经网络结构搜索是谷歌的AutoML的一个具体分支。约翰斯霍普金斯大学刘晨曦博士和Alan Yullie 教授，以及Google AI的李飞飞、李佳等多名研究者提出渐进式神经网络结构搜索技术，论文被ECCV 2018接收作为Oral。本文中，第一作者刘晨曦详细分析了这一技术的原理以及设计细节。

技术小能手

3276 0 0

热门文章

最新文章

deepseek部署的详细步骤和方法，基于Ollama获取顶级推理能力！

讨论阶段性给予客户交付物所引发的风险问题

Linus Torvalds将中国亮相LinuxCon + ContainerCon + CloudOpen

DispatcherServlet与初始化主线

网络安全研究人员发现新漏洞：或成另一个WannaCry

Swift中常量和变量的声明

[20160516]adrci purge.txt

Docker Secure Deployment Guidelines

Eclipse没有权限操作rt.jar包中的sun包，导致sun.net.ftp.FtpClient引用报错

Learning Cocos2d-x for WP8（9）——Sprite到哪，我做主

去中心化存储：数据存储的新范式

AI 赋能混合云运维：告别手工操作，迈向智能自愈！

从Excel到大数据：别让工具限制你的思维！

Go 切片导致 rand.Shuffle 产生重复数据的原因与解决方案

基于SVPWM矢量控制的无速度传感器电机控制系统simulink建模与仿真

基于小波变换和峰值搜索的光谱检测matlab仿真,带GUI界面

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

FoloUp：比HR更懂岗位需求！开源语音面试平台爆火：1份岗位需求生成100问，语音AI追问逻辑漏洞

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

基于深度学习的路面裂缝检测算法matlab仿真

相关课程

更多

计算机视觉类比赛汇总

南瓜书《机器学习公式推导》

机器学习基础与回归算法

机器学习入门-概念原理及常用算法

【机器学习】机器学习笔试题集合

李宏毅2021《机器学习》

相关电子书

更多

典型模型-卷积神经网络入门

深度学习论文实现：空间变换网络-第一部分

弱监督机器学习研究新进展

相关实验场景

更多

如何快速训练大模型

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

使用PAI-快速开始，低代码实现大语言模型微调和部署

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云oss简介和如何对接使用