首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?

简介:

语言模型对于语音识别系统来说,是一个关键的组成部分,在机器翻译中也是如此。近年来,神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题,使得模型很难表征大型的文本,以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法,来解决这一难题。目前,语言建模的最好表现是基于长短记忆网络(LSTM,1997年由Hochreiter和Schmidhuber提出)的,它能对潜在的任意长期依存进行建模。


算法模型的突破意义在哪


Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用,是学术和产业都十分关注的技术,现在忽然出现了一种比它更好的模型,AI 圈内人士怎么看?


美国卡内基梅隆计算机系博士邓侃对新智元说:“这是 LSTM 的改进版,性能有所提高,但是方法论仍然沿用了 LSTM 的既有框架,并没有本质突破。


国内语音技术专家贾磊也与新智元分享了他的观点。他说:“CNN有一个优点就是通过共享权重由局部到整体实现对输入‘whole picture’ 的建模LSTM是通过逐帧递推的方式来建模整体而递推过程中引入门机制进行信息选择。”


他解释说:“通俗一点说,CNN更像视觉,天然具有二维整体性;而LSTM更像听觉和语音,总是通过串行的方式来理解整体。Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题,是对传统cnn技术很大的丰富和完善,文章具有很高的理论价值和实践意义。但是到目前为止,CNN是否会取代LSTM,即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM,形式还并不明朗。特别在一些高时效性的语音识别和语音交互问题上,由于严格的时效要求,LSTM这种随着时间的延展,逐步递推,逐渐遍及信号全貌的技术,还是有一定速度优势的。”


模型详情



640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

图 : 用于语言建模的门卷积网络架构


统计学意义的语言模型评估的是词语序列的概率分布。这导致了倾向于根据正在处理的词语对下一个词语出现的概率进行建模的方法。目前,语言建模的主要方法都是基于递归神经网络的。Facebook AI 研究院 提出了一个卷积的方法,来为语言建模。他们引入了一个新的门机制(gating mechanism),能够释放梯度传播,同时比Oord 等人在2016年提出的 LSTM 风格的 gating 性能上要好很多,并且还更加简单。


门(gating)机制控制着神经网络中的信息流动,在1997年时就被 Schmidhuber等人证明在递归神经网络中非常有用。LSTM通过一个由输入控制的单独单元(cell)和forget gates来激活长期记忆,这能让信息在多个时间点可以无阻碍地流动。如果没有这些门的存在,信息在每一个时间点上的变化可能会导致消失的情况。相反地,卷积神经网络并不会存在梯度消失的问题,在实验中,我们发现,他们并不要求有forget gates。


在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。在设置中,延迟非常重要,比起递归机制的基线,我们的模型获得了一个维度的加速,因为计算能够多次并行运行。据我们所知,这是此类的任务中,一个非递归性的方法首次在性能上超越了向来强大的递归模型。”


测试结果


研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上图是门卷积神经网络(GCNN)模型与LSTM和RNN 模型在 Billion Word(GBW)数据集基准上进行测试的结果。在单个GPU的情况下,GCNN的性能做到了最好。并且,据Facebook 研究者在论文中介绍,他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元,LSTM每层拥有1024个单元。在与多GPU 进行对比时,只有超大型LSTM模型在性能上比GCNN好。但是,超大型LSTM -2048 (代表层数)使用了32个GPU,训练时间为3周,GCNN只使用1个GPU,训练时间1周。



640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


 另一个横向对比是在WikiText-103 上进行的,这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符(tokens),另外,数据库中还包含了20万个单词的词汇表。


在这个数据集进行测试时,输入的序列是一篇完整的Wikipedia 文章,而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到,门线性单元(GLU,图中红线)在实现向更低的复杂性转换的过程是最快的。


被超越的 LSTM


LSTM 和递归神经网络能捕捉长期的依存性,在被提出后便以席卷之势迅速成为自然语言处理的奠基石。LSTM可以记忆不定时间长度的数值,区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
LSTM 模型的基本架构,其中中间四个相互交互的层,是整个模型的核心


此外,由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解(NLU)上有着重要作用。


LSTM 目前在行业内有着广泛的应用,范围包括但不限于:不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。


2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。 


研究者的自我评价


在论文的最后,研究者总结说,我们(Facebook)发布了一个卷积的神经网络,使用一个新的门机制来为语言建模。与递归神经网络相比,我们的方法建立了一个输入词语的层级表征,让它可以更好地捕获长距离的依存性(dependencies),这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层,并且是非线性的,这种相似的属性够产生学习。这和递归神经网不同,递归神经网络中,处理步骤的数量根据词在输入中的位置会有所不同。


结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。


不谈取代,我们谈谈优化


正如上文中专家的分析,在语言建模上,现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络,尤其是LSTM的全面超越,但是,现在谈取代还为时尚早。


算法模型的演进是不断优化的渐进过程,Facebook带来了一种新的思路,并且在研究中进行了验证,究其意义,正如作者在论文中介绍的那样:一个非递归性的方法首次在性能上超越了向来强大的递归模型。但是,算法模型到底只是工具,并不存在真正的“取代”之争。对于实际应用来说,还是要看效果。该模型对于整个产业应用的意义,目前来看还有待验证,毕竟LSTM现在已经得到了广泛的应用,并且效果还不错。


文章转自新智元公众号,原文链接

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
36 1
|
11天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
24 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
4天前
|
机器学习/深度学习 人工智能 算法
深入理解卷积神经网络:从理论到实践
【9月更文挑战第31天】在深度学习的众多模型之中,卷积神经网络(CNN)以其在图像处理领域的出色表现而闻名。本文将通过浅显易懂的语言和直观的比喻,带领读者了解CNN的核心原理和结构,并通过一个简化的代码示例,展示如何实现一个简单的CNN模型。我们将从CNN的基本组成出发,逐步深入到其在现实世界中的应用,最后探讨其未来的可能性。文章旨在为初学者提供一个清晰的CNN入门指南,同时为有经验的开发者提供一些深入思考的视角。
|
4天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第31天】本文旨在通过浅显易懂的语言和直观的比喻,为初学者揭开深度学习中卷积神经网络(CNN)的神秘面纱。我们将从CNN的基本原理出发,逐步深入到其在图像识别领域的实际应用,并通过一个简单的代码示例,展示如何利用CNN进行图像分类。无论你是编程新手还是深度学习的初学者,这篇文章都将为你打开一扇通往人工智能世界的大门。
|
8天前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
33 5
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)入门与实践
【8月更文挑战第62天】本文以浅显易懂的方式介绍了深度学习领域中的核心技术之一——卷积神经网络(CNN)。文章通过生动的比喻和直观的图示,逐步揭示了CNN的工作原理和应用场景。同时,结合具体的代码示例,引导读者从零开始构建一个简单的CNN模型,实现对图像数据的分类任务。无论你是深度学习的初学者还是希望巩固理解的开发者,这篇文章都将为你打开一扇通往深度学习世界的大门。
|
6天前
|
机器学习/深度学习 算法 搜索推荐
图神经网络综述:模型与应用
图神经网络综述:模型与应用
|
11天前
|
存储 机器人 Linux
Netty(二)-服务端网络编程常见网络IO模型讲解
Netty(二)-服务端网络编程常见网络IO模型讲解
|
11天前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
31 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
3天前
|
安全 网络协议 网络安全
网络安全与信息安全:漏洞、加密与意识的三重奏
【9月更文挑战第32天】在数字世界的交响乐中,网络安全是那不可或缺的乐章。本文将带您深入探索网络安全的三大主题:网络漏洞的识别与防范、加密技术的奥秘以及安全意识的重要性。通过深入浅出的方式,我们将一起揭开这些概念的神秘面纱,并学习如何在实际生活中应用它们来保护自己的数字足迹。让我们开始这场既刺激又富有教育意义的旅程,提升个人和组织的网络安全防御能力。

热门文章

最新文章

下一篇
无影云桌面