sMLP:稀疏全mlp进行高效语言建模

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 论文提出了sMLP,通过设计确定性路由和部分预测来解决下游任务方面的问题。

这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文,它主要的观点如下:

具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明,所有mlp都可以在语言建模方面与transformer相匹配,但在下游任务方面仍然落后。所以论文提出了sMLP,通过设计确定性路由和部分预测来解决下游任务方面的问题。

sMLP

sMLP模型包含N1个密集块和N2个稀疏块。在每个稀疏块中,包含两个模块:

tMoE模块:采用Base Layers (Lewis et al., 2021)中的MoE代替transformer中的FFN模块。

sMoE模块:这是轮文提出的sMoE模块,目的是为了取代gMLP的自注意模块和空间门控单元。

稀疏激活 all-MLP

左:一个来自现有基于transformer的moe (tMoE)的门控功能示例。tMoE使用学习到的门控函数将这四个令牌发送给FFN层的3位专家。

右图:在稀疏的all-MLP体系结构中,论文提出沿隐藏维度对隐藏表示进行分块,并将分块向量发送给不同的专家。

特征空间中的路由

与路由令牌相比,路由隐藏维度在自回归模型中面临着独特的挑战,如果只预测未来的令牌,信息就会泄露。

所以采用确定性路由,将向量在隐藏维度上进行分块,并将隐藏向量确定性地发送给专家。并且令牌X1的前20%用于决定路由,令牌X2的其余80%用于预测。

训练方法是不在整个序列长度T上训练语言模型,而是训练它来预测X2。而X1用来学习门控权值Wr。

结果

sMLP显著地提高了全基于mlp的模型的性能,并且也优于Transformer模型。

sMLP在25k训练步长时达到了最好的泛化效果,同时达到了最高的训练速度。

对于2.0 TFLOPs训练,模型大小增加。嵌入从1024调整为2048,隐藏维数从4096调整为8192。

sMLP仍然优于Switch Transformer,并且后者有更多的flop。

sMLP在平均精度方面优于所有稀疏Transformers 。显著的改进来自常识推理任务,如COPA、StoryCloze和HellaSwag。

论文地址:

Efficient Language Modeling with Sparse all-MLP

https://avoid.overfit.cn/post/92556271c70242719a322ad2788f4066

作者:Sik-Ho Tsang

目录
相关文章
|
Ubuntu 开发工具
Ubuntu不能上网解决办法
Ubuntu不能上网解决办法
1917 0
|
存储 缓存 关系型数据库
InnoDB的特点
InnoDB是MySQL数据库的存储引擎之一
292 0
|
11月前
|
域名解析 前端开发 搜索推荐
什么叫CMS?如何使用CMS来制作网站?
PageAdmin CMS,是一套开发了17年,官网还持续在更新和维护的网站内容管理系统,对于领开发的用户来说,对于有网站优化的用户来说,PageAdmin CMS就能帮助我们快速搭建属于自己的个性网站或企业网站。
577 5
|
缓存 安全 Unix
Linux 内核黑客不可靠指南【ChatGPT】
Linux 内核黑客不可靠指南【ChatGPT】
|
11月前
|
存储 Java 索引
Java LinkedList详解
`LinkedList`是Java集合框架中的一个重要类,实现了`List`、`Deque`和`Cloneable`接口。它基于双向链表,支持动态扩展,允许重复元素。虽然通过索引访问元素的时间复杂度为O(n),但在插入和删除操作上表现优异,时间复杂度为O(1)。常用操作包括创建、添加、获取、删除和查找元素,以及使用迭代器遍历。适用于频繁插入和删除的场景,如队列和栈的实现。
383 7
|
11月前
|
存储 关系型数据库 MySQL
RR隔离级别在MySQL中的实现与幻读问题探讨
【10月更文挑战第3天】在数据库管理系统中,事务隔离级别是确保数据一致性和并发性能的关键要素。MySQL作为广泛使用的关系型数据库管理系统,支持多种事务隔离级别,其中可重复读(Repeatable Read,简称RR)是其默认隔离级别。本文将深入探讨RR隔离级别在MySQL中的实现原理,以及RR隔离级别下幻读问题的产生与解决方案。
413 2
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
908 6
|
消息中间件 缓存 监控
Kafka性能优化策略综述:提升吞吐量与可靠性
Kafka性能优化策略综述:提升吞吐量与可靠性
1676 0
|
数据可视化 算法
MATLAB Simulink 逆变电路性能研究
MATLAB Simulink 逆变电路性能研究
161 1