Facebook 基于十亿单词量构建高效神经网络模型-阿里云开发者社区

开发者社区> boxti> 正文

Facebook 基于十亿单词量构建高效神经网络模型

简介:
+关注继续查看

使用神经网络进行序列预测是众所周知的计算机科学问题,在语音识别、机器翻译、语言建模和其他领域中都有着广泛的应用。这种预测使用的模型对计算能力要求很高,这限制了它们的实际应用。

Facebook AI Research的科学家设计了自适应的softmax算法,这是一种为GPU定制的近似算法,可在庞大的单词量基础上高效地训练神经网络。如公开发表的论文中所描述的,自适应softmax利用单词在大语料库中的不均衡分布,形成可以最小化计算复杂度的群集。完全softmax与词汇库大小线性相关,而自适应softmax是次线性相关的,并且针对GPU进行了优化。

在开发softmax的同时,Facebook研究人员发布了开源库torch-rnnlib,帮助研究人员设计和测试GPU中的递归模型。有了torch.cudnn,可以使用NVIDIA CUDA Deep Neural Network库轻松访问基线。RNN、LSTM、GRU和其他递归神经网络都有具体的实现,研究人员可以很容易地把它们用于递归神经网络的设计。

Facebook研究人员在单个GPU上对该算法进行测试,速度达到了每秒12500个单词,同时保持精确度接近完全softmax。从基准困惑度来看,谷歌公司的Jozefowicz等人在2016年使用32个GPU训练了3个星期得到30的困惑度(越低越好),同时使用18个GPU训练了几天得到44的困惑度。Google使用Tensorflow实现的LSTM模型发布在Github上,它的主要作者在Reddit的相关话题中提出了一个有趣的方法来解释困惑度。相反地,自适应softmax可以在大约14小时内达到50的困惑度,在一两天内达到43.9的困惑度以及在六天内达到39.8的困惑度。如果没有CuDNN库,性能下降约30%。所有工具和技术都针对EuroParl和十亿字语料库进行过测试,这些语料库是当前可获得的最大的几个语料库。

文章转载自 开源中国社区 [http://www.oschina.net]

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
[雪峰磁针石博客]flask构建自动化测试平台3-模板
3-模板 理想情况下,前端和后端组件之间的完全隔离。我们可以在很大程度上使用Jinja来实现这一目标。 到本章将扩展我们的应用程序,为所选出版物显示不止一个标题。我们将为每个出版物显示多篇文章,每篇文章都链接到原始文章,我们的逻辑和视图组件将在很大程度上分开。
1760 0
带你读《从实践中学习Kali Linux网络扫描》之二:网络扫描基础技术
本书详细讲解了网络扫描涉及的各项理论知识和技术。书中首先从理论层面帮助读者明确扫描的目的和方式,然后从基本协议的角度讲解了通用的扫描技术,最后过渡到特定类型网络环境的专有扫描技术。在先期扫描完成后,本书继续深入讲解了如何借助响应内容识别目标,并对常见的服务给出了扫描建议。在最后的相关章节,本书详细讲解了高效的数据整理和分析方式。
835 0
iOS网络编程之六——数据缓存类NSURLCache使用解析
iOS网络编程之六——数据缓存类NSURLCache使用解析
17 0
C#网络爬虫--多线程处理强化版
上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等。 说说思路:首相获取初始网址的所有内容 在初始网址采集图片 去初始网址采集链接 把采集到的链接放入队列 继续采集图片,然后继续采集链接,无限循环 还是上...
996 0
如何高效验证深度神经网络的学习行为?看看 Facebook 是怎么做的
能够比当前 state-of-the-art 程序更快识别应用安全水平的最新技术。
359 0
[雪峰磁针石博客]flask构建自动化测试平台1-hello
简介 第一部分 Flask实例。学习使用Flask开发,构建功能完备的Web应用程序。我们开发了动态的头条新闻应用程序,可显示最新的新闻标题以及最新的货币和天气信息。在项目二中,我们构建了由MySQL数据库支持的犯罪地图应用程序,允许用户提交犯罪信息和犯罪地点,以便绘制区域内的危险区域和其他犯罪趋势。
1536 0
卷积神经网络概述
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 卷积神经网络 图像识别问题和数据集 > 计算机视觉中有哪些问题?典型问题:经典数据集。
1224 0
Fabrik – 在浏览器中协作构建,可视化,设计神经网络
Fabrik是一个在线协作平台,通过简单的拖放界面来构建,可视化和训练深度学习模型。 它允许研究人员使用Web GUI协同开发和调试模型,该GUI支持导入,编辑和导出广泛流行的框架(如Caffe,Keras和TensorFlow)编写和导出的网络。
863 0
带你读《从实践中学习Kali Linux网络扫描》之一:网络扫描概述
本书详细讲解了网络扫描涉及的各项理论知识和技术。书中首先从理论层面帮助读者明确扫描的目的和方式,然后从基本协议的角度讲解了通用的扫描技术,最后过渡到特定类型网络环境的专有扫描技术。在先期扫描完成后,本书继续深入讲解了如何借助响应内容识别目标,并对常见的服务给出了扫描建议。在最后的相关章节,本书详细讲解了高效的数据整理和分析方式。
919 0
+关注
boxti
12535
10037
文章
1327
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载