在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数


机器之心编辑部

Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能水平。本文提出了一种新颖的模型架构,Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。实验证明,RWKV 的性能与相同规模的 Transformer 相当。


深度学习技术在人工智能领域取得了重大进展,在各种科学和工业应用中发挥了关键作用。这些应用通常涉及复杂的序列数据处理任务,包括自然语言理解、对话式人工智能、时间序列分析等,其中用到的技术主要包括循环神经网络(RNNs)、卷积神经网络(CNNs)和 Transformer 等。


不过,这些方法各自存在不同的缺点,从而限制了它们在某些场景下的效率。循环神经网络(RNNs)面临着梯度消失的问题,使得它们难以对长序列进行训练。此外,在训练过程中无法在时间维度上并行化,进而限制了其可扩展性。另一方面,卷积神经网络(CNNs)只擅长捕捉局部模式,在处理长程依赖方面还很欠缺,而这对于许多序列处理任务至关重要。


Transformer 模型由于其处理局部和长程依赖关系的能力以及可并行化训练的特点而成为一个强大的替代方案,如 GPT-3、ChatGPT、GPT-4、LLaMA 和 Chinchilla 等都展示了这种架构的能力,推动了自然语言处理领域的前沿。尽管取得了这些重大进展,Transformer 中固有的自注意力机制带来了独特的挑战,主要是由于其二次复杂度造成的。这种复杂性使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。这也促使了大量研究的发布,旨在改善 Transformer 的扩展性,但往往以牺牲一些特性为代价。


为了应对这些挑战,一个由 27 所大学、研究机构组成的开源研究团队,联合发表论文《 RWKV: Reinventing RNNs for the Transformer Era 》,文中介绍了一种新型模型:RWKV(Receptance Weighted Key Value),这是一种新颖的架构,有效地结合了 RNN 和 Transformer 的优点,同时规避了两者的缺点。RWKV 设计精良,能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使 Transformer 在这个领域占主导的一些性质。




本文利用线性注意力机制,允许将模型定义为 Transformer 或 RNN,从而在训练期间并行化计算,并在推理过程中保持恒定的计算和内存复杂性,使其成为第一个可扩展到数百亿参数的非 Transformer 架构。


RWKV 其中的一个特征是它能够提供并行训练和强大的可扩展性,类似于 Transformer。此外,该研究对 RWKV 中的注意力机制进行了重新阐述,引入了线性注意力的一个变体,避开了传统点积(dot-product)token 交互,转而采用更有效的通道导向注意力( channel directed attention )。这种方法与传统的 Transformer 架构形成了鲜明的对比,其中特定的 token 交互主导了注意力。在 RWKV 中,线性注意力的实施是无需近似的,这在效率上提供了显著的改进,并增强了可扩展性,详见表 1。


该研究表示,开发 RWKV 的主要动机是弥补神经网络架构在计算效率和表达能力之间的差距。它为处理涉及数十亿参数的大规模模型的任务提供了一个有希望且可行的解决方案,以极低的计算成本展现出强有力的竞争性。


实验结果表明,RWKV 可以成为一个有价值的工具,用于解决各个领域扩展和部署人工智能模型的各种挑战,特别是那些涉及序列数据处理的领域。RWKV 为下一代更可持续、计算效率更高的序列处理任务的 AI 模型铺平了道路。


总结而言,本文的贡献如下:


  • 引入了 RWKV 网络架构,该架构结合了 RNN 和 Transformer 的优点,同时减轻了它们已知的限制。
  • 本文提出了一个新的注意力机制重构,进而提出线性注意力,避开了与标准 Transformer 模型相关的二次复杂性。
  • 本文在基准数据集上进行了一系列全面的实验,展示了 RWKV 在处理涉及大规模模型和长距离依赖任务上的性能、效率和可扩展性。
  • 发布了预训练模型,其大小从 1.69 亿到 140 亿的参数不等,这些模型是在 Pile 上训练的。


值得注意的是,论文参与机构之一的 EleutherAI 表示:这篇论文还不是最终版本,后续会不断完善。


RWKV 模型

RWKV 架构的名称来源于时间混合和通道混合块中使用的四个主要模型元素,分别如下:


  • R:Receptance 向量,用于接收以往信息;
  • W:权重(weight)是位置权重衰减向量,是可训练的模型参数;
  • K:键(Key)是类似于传统注意力中 K 的向量;
  • V:值(Value)是类似于传统注意力中 V 的向量。


每一时间步的主要元素之间的交互是相乘增加的,具体如下图 2 所示。


架构细节

RWKV 架构由一系列堆叠的残差块组成,每个残差块又由具有循环结构的时间混合和通道混合子块组成。


循环被表示为当前输入和前一个时间步的输入之间的线性插值(研究者称这种技术为时移混合或 token shift,如下图 3 所示),该插值可以针对输入嵌入的每个线性投影进行独立调整(比如时间混合中的 R、K 和 V,通道混合中的 R 和 K),并作为公式 14 中形式化的 WKV 的时变更新。


类 Transformer 的并行化

RWKV 可以在时间并行模式下进行高效地并行化,让人联想到 Transformer。单个层中一个 batch 序列的时间复杂度为 O (BTd^2 ),它主要由矩阵乘法 W_□,  □ ∈ {r, k, v, o}(假设 B 个序列、T 个最大 token 和 d 个通道)。同时更新注意力分数 wkv_t 需要串行扫描,并且复杂度为 O (BTd)。


类 RNN 的序列解码

在循环网络中,将状态 t 时的输出用作状态 t+1 时的输入很常见。这在语言模型的自回归解码推理中尤为明显,要求每一个 token 在馈入下一步之前必须进行计算,从而使 RWKV 可以利用类 RNN 结构(即时序模式)。在这种情况下,RWKV 可以方便地循环用于推理解码,从而利用每个输出 token 仅依赖于最新状态的优势。


然后 RWKV 充当 RNN 解码器,在序列长度方面保持恒定速度和内存占用,从而更高效地处理更长的序列。相比之下,自注意力通常需要 KV 缓存相对于序列长度呈线性增长,这会导致效率下降,并随序列长度增加消耗更多内存和时间。


软件实现

RWKV 最初使用 PyTorch 深度学习库和自定义 CUDA 内核(它用于 WKV 计算)来实现。尽管 RWKV 是一个通用循环网络,但其当前的实现主要集中在语言建模任务(RWKV-LM)。该模型架构包含了一个嵌入层,为此研究者遵循第 4.7 节中的设置,并按照第 4.6 节中的原则依次应用几个相同的残差块,具体如上图 2 和 3 所示。


梯度稳定性和层堆叠

RWKV 架构被设计为 Transformer 和 RNN 的融合,与传统的 RNN 相比,Transformers 具有稳定梯度和更深层次架构的优势,同时推理效率高。


RWKV 模型具有用于更新类似注意力分数的单步过程,其中包括一个依赖于时间的 softmax 操作,该操作有助于数值稳定性并防止梯度消失(有关严格证明,请参见附录 F)。直观地说,此操作可确保梯度沿最相关的路径传播。Layer normalization (Ba et al., 2016) 是架构的另一个关键方面,它通过稳定梯度、解决梯度消失和爆炸问题来增强深度神经网络的训练动态。


利用时间结构进行时序数据处理


RWKV 通过三种机制的组合来捕获和传播时序信息:循环、时间衰减和 token shift。


RWKV 时间混合块中的循环是模型捕获序列元素之间复杂关系和随时间传播局部信息的能力的基础。


时间衰减机制(等式 14 中的 e^−w 和 e^u)保持了对序列元素之间位置关系的敏感性。通过逐渐减少以往信息随时间的影响,该模型保留了时间局部性和进展感,这对于时序处理至关重要。


token shift 或 time-shift 混合或(图 3 中的对角线箭头),也有助于模型适应时序数据。通过在当前输入和前一个时间步输入之间进行线性插值,模型自然地聚合和门控输入通道中的信息。


实验结果


实验的重点是回答以下问题:


  • RQ1:在参数数量和训练 token 数量相等的情况下,RWKV 与二次 transformer 架构相比具有竞争力吗?
  • RQ2:增加参数数量时,RWKV 是否仍然具有与二次 transformer 架构相竞争的能力?
  • RQ3:当 RWKV 模型被训练用于开源二次 transformer 无法高效处理的上下文长度时,增加 RWKV 的参数是否能够获得更好的语言建模损失?


首先是回答 RQ1 和 RQ2 问题,从图 4 可以看出,在六个基准测试中(Winogrande、PIQA、ARC-C、ARC-E、LAMBADA 和 SciQ),RWKV 与开源二次复杂度 transformer 模型 Pythia、OPT 和 BLOOM 具有相当的竞争力。RWKV 甚至在四个任务(PIQA、OBQA、ARC-E 和 COPA)中胜过了 Pythia 和 GPT-Neo。



对于 RQ3,图 5 显示,增加上下文长度会导致 Pile 上的测试损失降低,这表明 RWKV 能够有效利用较长的上下文信息。


相关文章
|
2月前
|
关系型数据库 分布式数据库 数据库
【PolarDB开源】PolarDB与微服务架构的融合:灵活扩展与高效管理
【5月更文挑战第23天】阿里云PolarDB是适用于微服务的高性能分布式数据库,提供数据分片、水平扩展及高可用性解决方案。通过SQL或API实现弹性扩展,内置故障转移保障服务连续性,且兼容MySQL协议,易于集成微服务生态。通过Spring Boot示例展示了PolarDB的配置与集成过程,强调其在现代云原生应用中的重要角色。
75 1
|
2月前
|
设计模式 消息中间件 监控
构建高效可扩展的微服务架构
【5月更文挑战第31天】随着企业应用的复杂性增加,传统的单体架构已难以满足快速迭代与高可用性的需求。本文将探讨如何通过微服务架构实现系统的模块化、动态扩展和容错能力,以及在构建过程中需要注意的核心原则和常见模式。我们将从微服务的定义出发,深入其设计理念,并通过案例分析展示如何在现实世界中实现一个高效且可扩展的微服务系统。
|
10天前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
23 2
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
`Transformers`模型因其在多种任务上的优秀性能而广泛采用,但其内存需求和推理成本随词元数量指数增长。为解决这一问题,论文《Linearizing Large Language Models》提出`SUPRA`方法,将预训练的`Transformers`转换为递归神经网络(RNN),实现有效推理并降低训练成本至原来的5%。`SUPRA`通过将注意力机制线性化并用`GroupNorm`替代`softmax`,保持预训练模型的优势。经过微调,转换后的模型在标准语言理解和长上下文任务中保持高性能,展示了在长序列处理方面的潜力,但仍有改进空间。
99 2
|
23天前
|
弹性计算 运维 监控
构建高效可扩展的后端服务架构
在当今数字化时代,构建高效可扩展的后端服务架构是企业成功的关键之一。本文将探讨如何设计和实施一种可靠、高性能的后端架构,以满足不断增长的用户需求和复杂的业务逻辑。通过采用合适的技术栈、优化数据库设计、实现弹性伸缩和监控等关键策略,我们能够打造出稳定可靠、高效可扩展的后端服务系统。
|
28天前
|
机器学习/深度学习 算法 存储
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
【6月更文挑战第3天】Bengio等人提出的新模型Aaren视注意力为特殊RNN,以解决Transformer在资源受限环境中的计算成本高和内存使用问题。Aaren模型通过并行前缀和算法实现高效计算和常数级内存使用,性能接近Transformer,同时在时间序列任务中表现优秀,尤其适合移动设备和嵌入式系统。尽管可能在某些复杂任务上不如Transformer,但其高效性为实时数据处理提供了潜力。论文链接:[https://arxiv.org/pdf/2405.13956](https://arxiv.org/pdf/2405.13956)
57 2
|
2月前
|
敏捷开发 消息中间件 存储
构建高效可扩展的微服务架构:后端开发的新范式
【5月更文挑战第25天】在当今快速迭代的软件开发环境中,微服务架构已成为实现敏捷开发、持续部署和高可用性的关键策略。本文将深入探讨微服务的概念、其设计原则以及如何构建一个既高效又可扩展的后端系统。我们将通过实际案例分析,揭示在采用微服务架构时可能遇到的挑战以及解决方案,为后端开发者提供一套实用的指导框架。
|
2月前
|
设计模式 负载均衡 数据管理
构建高效可扩展的微服务架构:后端开发的新趋势
随着数字化转型的加速,企业对后端系统的要求越来越高。本文探讨了如何构建一个既高效又可扩展的微服务架构,以满足快速变化的市场需求。我们将从微服务的核心概念出发,分析其设计原则,并讨论在实现过程中面临的挑战以及应对策略。文章还将展示通过采用微服务架构,企业如何获得更好的业务敏捷性和技术创新能力。
|
2月前
|
消息中间件 存储 API
构建高效可扩展的微服务架构:后端开发的新范式
【5月更文挑战第27天】在数字化转型的浪潮中,微服务架构已成为企业构建灵活、敏捷且可扩展的后端系统的关键策略。本文将深入探讨微服务架构的核心概念、设计原则和实施步骤,以及它如何帮助开发者解决传统单体应用所面临的挑战。我们将通过分析微服务的优势,包括其对复杂系统的模块化处理、独立部署能力以及技术多样性的支持,来展示如何利用这一架构模式提升后端开发的效率和系统的可靠性。
|
2月前
|
机器学习/深度学习 人工智能 监控
论文介绍:Masked-attention Mask Transformer (Mask2Former)——通用图像分割的新架构
【5月更文挑战第24天】Mask2Former,一种新型的图像分割架构,采用遮蔽注意力机制聚焦局部特征,提升模型收敛速度和性能,在COCO、Cityscapes等数据集上刷新记录。其元架构结合背景特征提取器、像素解码器和Transformer解码器,实现高效训练和性能提升。尽管在处理小对象和泛化能力上仍有局限,但Mask2Former为通用图像分割开辟了新路径。[链接](https://arxiv.org/abs/2112.01527)
62 5