首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?

简介:

语言模型对于语音识别系统来说,是一个关键的组成部分,在机器翻译中也是如此。近年来,神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题,使得模型很难表征大型的文本,以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法,来解决这一难题。目前,语言建模的最好表现是基于长短记忆网络(LSTM,1997年由Hochreiter和Schmidhuber提出)的,它能对潜在的任意长期依存进行建模。


算法模型的突破意义在哪


Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用,是学术和产业都十分关注的技术,现在忽然出现了一种比它更好的模型,AI 圈内人士怎么看?


美国卡内基梅隆计算机系博士邓侃对新智元说:“这是 LSTM 的改进版,性能有所提高,但是方法论仍然沿用了 LSTM 的既有框架,并没有本质突破。


国内语音技术专家贾磊也与新智元分享了他的观点。他说:“CNN有一个优点就是通过共享权重由局部到整体实现对输入‘whole picture’ 的建模LSTM是通过逐帧递推的方式来建模整体而递推过程中引入门机制进行信息选择。”


他解释说:“通俗一点说,CNN更像视觉,天然具有二维整体性;而LSTM更像听觉和语音,总是通过串行的方式来理解整体。Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题,是对传统cnn技术很大的丰富和完善,文章具有很高的理论价值和实践意义。但是到目前为止,CNN是否会取代LSTM,即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM,形式还并不明朗。特别在一些高时效性的语音识别和语音交互问题上,由于严格的时效要求,LSTM这种随着时间的延展,逐步递推,逐渐遍及信号全貌的技术,还是有一定速度优势的。”


模型详情




图 : 用于语言建模的门卷积网络架构


统计学意义的语言模型评估的是词语序列的概率分布。这导致了倾向于根据正在处理的词语对下一个词语出现的概率进行建模的方法。目前,语言建模的主要方法都是基于递归神经网络的。Facebook AI 研究院 提出了一个卷积的方法,来为语言建模。他们引入了一个新的门机制(gating mechanism),能够释放梯度传播,同时比Oord 等人在2016年提出的 LSTM 风格的 gating 性能上要好很多,并且还更加简单。


门(gating)机制控制着神经网络中的信息流动,在1997年时就被 Schmidhuber等人证明在递归神经网络中非常有用。LSTM通过一个由输入控制的单独单元(cell)和forget gates来激活长期记忆,这能让信息在多个时间点可以无阻碍地流动。如果没有这些门的存在,信息在每一个时间点上的变化可能会导致消失的情况。相反地,卷积神经网络并不会存在梯度消失的问题,在实验中,我们发现,他们并不要求有forget gates。


在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。在设置中,延迟非常重要,比起递归机制的基线,我们的模型获得了一个维度的加速,因为计算能够多次并行运行。据我们所知,这是此类的任务中,一个非递归性的方法首次在性能上超越了向来强大的递归模型。”


测试结果


研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下:




上图是门卷积神经网络(GCNN)模型与LSTM和RNN 模型在 Billion Word(GBW)数据集基准上进行测试的结果。在单个GPU的情况下,GCNN的性能做到了最好。并且,据Facebook 研究者在论文中介绍,他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元,LSTM每层拥有1024个单元。在与多GPU 进行对比时,只有超大型LSTM模型在性能上比GCNN好。但是,超大型LSTM -2048 (代表层数)使用了32个GPU,训练时间为3周,GCNN只使用1个GPU,训练时间1周。





 另一个横向对比是在WikiText-103 上进行的,这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符(tokens),另外,数据库中还包含了20万个单词的词汇表。


在这个数据集进行测试时,输入的序列是一篇完整的Wikipedia 文章,而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。





上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到,门线性单元(GLU,图中红线)在实现向更低的复杂性转换的过程是最快的。


被超越的 LSTM


LSTM 和递归神经网络能捕捉长期的依存性,在被提出后便以席卷之势迅速成为自然语言处理的奠基石。LSTM可以记忆不定时间长度的数值,区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。



LSTM 模型的基本架构,其中中间四个相互交互的层,是整个模型的核心


此外,由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解(NLU)上有着重要作用。


LSTM 目前在行业内有着广泛的应用,范围包括但不限于:不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。


2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。 


研究者的自我评价


在论文的最后,研究者总结说,我们(Facebook)发布了一个卷积的神经网络,使用一个新的门机制来为语言建模。与递归神经网络相比,我们的方法建立了一个输入词语的层级表征,让它可以更好地捕获长距离的依存性(dependencies),这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层,并且是非线性的,这种相似的属性够产生学习。这和递归神经网不同,递归神经网络中,处理步骤的数量根据词在输入中的位置会有所不同。


结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。


不谈取代,我们谈谈优化


正如上文中专家的分析,在语言建模上,现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络,尤其是LSTM的全面超越,但是,现在谈取代还为时尚早。


算法模型的演进是不断优化的渐进过程,Facebook带来了一种新的思路,并且在研究中进行了验证,究其意义,正如作者在论文中介绍的那样:一个非递归性的方法首次在性能上超越了向来强大的递归模型。但是,算法模型到底只是工具,并不存在真正的“取代”之争。对于实际应用来说,还是要看效果。该模型对于整个产业应用的意义,目前来看还有待验证,毕竟LSTM现在已经得到了广泛的应用,并且效果还不错。


文章转自新智元公众号,原文链接

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
7月前
|
机器学习/深度学习 算法 安全
【光伏功率预测】基于EMD-PCA-LSTM的光伏功率预测模型(Matlab代码实现)
【光伏功率预测】基于EMD-PCA-LSTM的光伏功率预测模型(Matlab代码实现)
344 1
|
8月前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
269 2
|
8月前
|
机器学习/深度学习 算法 安全
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
375 0
|
9月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
6月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
7月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
451 2
|
7月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
614 11
|
7月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
166 8
|
7月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
736 2

热门文章

最新文章