一颗赛艇!上海交大搞出SRNN,比普通RNN也就快135倍

简介: 近日,上海交大的研究人员提出了切片循环神经网络(Sliced recurrent neural networks,SRNN)的结构,在不改变循环单元的情况下,比RNN结构快135倍。

快了135倍。

近日,上海交大的研究人员提出了切片循环神经网络(Sliced recurrent neural networks,SRNN)的结构,在不改变循环单元的情况下,比RNN结构快135倍。

这种如同脚踩风火轮一般的操作,究竟是怎样实现的?

在论文《Sliced Recurrent Neural Networks》中,研究人员给出了具体介绍。我们先来看看“全是重点其他免谈”的论文重点——

“曲线救国”的SRNN

传统RNN结构中最流行的循环单元是LSTM和GRU,二者都能在隐藏层中通过门控机制(Gating Mechanism)存储近期信息,然后决定这些信息将以怎样的程度和输入结合。这种结构的缺点也很明显,RNN很难实现并行化处理。

image

△ 传统RNN结构,A代表循环单元 | 每一步都需要等待上一步的输出结果

因此,很多学者选在在NLP任务中用CNN来代替,但CNN无法有效获取重要的顺序信息,效果并不理想。

SRNN的结构基于RNN结构进行改良,将输入的序列切成最小的等长子序列。在这种结构中,无需等待上一步的输出结果,循环单元可在每一层的每一个子序列中同时开工,并且信息可通过多层神经网络进行传送。


image


△ SRNN结构图,A代表循环单元

最后,研究人员比较了SRNN和RNN在不同序列长度时的训练时间和与速度。


image

结果显示,序列越长,SRNN的优势越明显,当序列长度为32768时,SRNN的速度达到了RNN的136倍。

论文摘要

在NLP(自然语言处理)的很多任务中,循环神经网络已经取得了成功。然而这种循环的结构让并行化变得很困难,所以,训练RNN的时间通常较长。

在这篇文章中,我们提出了一种切片循环神经网络的结构,能够将序列切割成很多子序列,从而实现并行。这种结构可以在额外参数较少的情况下,通过神经网络的多个层次获取高级信息。

我们已经证明,我们可以将标准的RNN结构理解为是SRNN在使用线性激活函数时的特殊情况。

在不改变循环单元的情况下,SRNN能够比标准RNN快135倍,在训练长序列时甚至更快。我们也在大型情感分析数据集上用实验证实,SRNN的表现优于RNN。



image

论文传送门

关于这项研究的更具体的细节,可以移步上海交大电气信息与电气工程学院的Zeping Yu和Gongshen Liu的论文《Sliced Recurrent Neural Networks》,地址如下——

https://arxiv.org/abs/1807.02291

原文发布时间为:2018-07-10
本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
177 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
清华微软最新力作:用物理学革新Transformer注意力,大海捞针精度暴涨30%!
【10月更文挑战第30天】Transformer模型在自然语言处理(NLP)中表现出色,但在处理长文本和复杂任务时存在注意力分配不当的问题。清华大学和微软研究院提出了Diff Transformer,通过计算两个独立软最大注意力图之间的差异,有效消除噪声,提高模型性能。Diff Transformer在语言建模、减少幻觉、增强上下文学习能力和减少激活异常值等方面表现出显著优势,但也存在计算复杂度增加、对超参数敏感和适用范围有限的局限性。论文地址:https://arxiv.org/abs/2410.05258
36 2
|
2月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
57 1
|
4月前
|
传感器 人工智能
上交、智源、北大等提出空间大模型SpatialBot
【8月更文挑战第29天】近年来,人工智能技术迅猛发展,视觉语言模型(VLMs)在2D图像理解上取得显著成就,但在空间理解方面仍面临挑战。上交、智源、北大等机构的研究人员提出了结合RGB和深度图像的空间大模型SpatialBot,以提升空间理解精度。通过使用包含多层次深度信息的SpatialQA数据集进行训练,并基于全面评估基准SpatialBench测试,SpatialBot在多个任务中表现出色,显著提升了空间理解能力。然而,其应用仍受限于部署成本和数据集泛化能力等问题。论文链接: https://arxiv.org/abs/2406.13642
69 3
|
5月前
|
存储
73年前,香农已经给大模型发展埋下一颗种子
【7月更文挑战第13天】克劳德·香农1951年的论文《印刷英语的预测和熵》预示了大模型的未来。他探索了语言统计特性在预测下一个字母出现中的作用,开创性地计算了语言熵,为信息传输效率提供了评估手段。香农的工作虽限于英语和单个字母预测,但其思想为现代大模型的训练、评估和应用奠定了基础。[🔗](https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf)**
62 9
|
7月前
|
机器学习/深度学习 存储 自然语言处理
清华朱军团队新作!使用4位整数训练Transformer,提速35.1%!
清华朱军团队新作!使用4位整数训练Transformer,提速35.1%!
70 1
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
180 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
|
机器学习/深度学习 人工智能 边缘计算
首个在ImageNet上精度超过80%的二值神经网络BNext问世,-1与+1的五年辛路历程
首个在ImageNet上精度超过80%的二值神经网络BNext问世,-1与+1的五年辛路历程
155 0
|
机器学习/深度学习 编解码 PyTorch
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet
133 0
|
机器学习/深度学习 编解码 PyTorch
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet(2)
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet
115 0