机器之心最新一期线上分享邀请到了新加坡国立大学博士侯皓文,现 RWKV Foundation 成员,为大家分享他们团队的开源项目 RWKV。
Transformer 已经彻底改变了几乎所有自然语言处理(NLP)任务,但其在序列长度上的内存和计算复杂度呈二次方增长。相比之下,循环神经网络(RNN)在内存和计算需求上呈线性扩展,但由于并行化和可扩展性的限制,难以达到 Transformer 相同的性能。
基于此,该研究团队提出了一种新颖的模型架构,即 Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与RNN的高效推理相结合。该方法利用了线性注意机制,并使得模型既可以作为 Transformer,也可以作为 RNN 来构建,从而实现了在训练过程中的计算并行化,并在推理过程中保持恒定的计算和内存复杂度,这使得它成为第一个可以扩展到数百亿参数的非 Transformer 架构。
实验结果显示,RWKV 的性能与大小相似的 Transformer 相当,这表明未来的工作可以利用这种架构创建更高效的模型。这项工作在平衡序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要的一步。