深度学习趋势:云计算or高性能计算

简介:


当吴恩达还在Google训练电脑矩阵使用人工智能,识别喵星人视频时,他并非一帆风顺。


Google在世界各地的数据中心拥有海量计算机,对于吴恩达的工作,计算量绝对绰绰有余。但配置如此强大的计算机集群并不是一件容易的事情,如果有一台服务器忽然当机(如果你同时使用1000台机器,这种事情几乎每天都会发生),就会减小准确性。


吴恩达透露,这是深度学习世界里众多问题之一,如今大数据和人工智能里最热的议题是:与云计算的发展不符。Google、亚马逊和Facebook已经使用云计算在数万台计算机上运行软件。


在吴恩达的人工智能实验后没多久,一位名叫Adam Coates的斯坦福大学研究人员想出了一个更好的解决方案,他用一种不同的微处理器,图形处理器GPU(Graphical Processing Unit),将三台计算机连贯在一起,让它们像是一个系统一样运行,结果与Google数千台计算机的运行效果是一样的。这绝对是一个非凡的成就。


Coates目前在吴恩达手下,就职与百度。他说,

“和以前支持人工智能的处理器相比,GPU在资源处理上有很大不同,不仅速度更快,同时能在更小系统上紧密整合,成本也得以降低。”


游戏玩家应该对GPU非常熟悉,他们会购买专门的显卡提升视频游戏体验。实际上,在吴恩达的Google人工智能试验之前,学术界也早已了解GPU,它具有强大的数学处理能力,对深度学习而言再合适不过。一开始,研究人员只为单一系统编写深度学习软件,而Coates则在很多基于GPU的计算机上构建深度学习网络。


Google和Facebook也在使用GPU,当然还有一些著名人工智能实验室,如橡树岭国家实验室(Oak Ridge National Labs)和劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory)。他们希望利用强大的芯片和速度超快的网络设备(现以广泛应用于超级计算机内)支持深度学习的计算能力。


超级计算机遇到深度学习

在橡树岭国家实验室有一个研究设施SNS(散裂中子源),它构建于2006年,曾引爆过世界上最强的材料中子束,帮助物理学家和化学家了解材料内部结构是如何形成的。


SNS产生了大量数据,它们需要被彻底分析。而科学家们相信,他们可以利用深度学习算法快速识别数据类型,提升分析能力。识别数据类型可是深度学习的专长。


但问题是,对于科学模拟来说,每次产生700TB数据似乎太正常不过了,不过这比美国国会图书馆所有信息加起来的量还要大。


不过,在高性能计算机网络的支持下,现在由GPU支持的深度学习可以解决上述问题。实验室的Titan超级计算机和Google云有些不一样,虽然它也是有数千台计算机组成的计算矩阵,但Titan可以在每台机器内存实现快速进出、交换数据,并且推送给其他机器。也就是说,研究人员已经能在Titan上利用深度学习算法。


Facebook也使用GPU,但负责深度学习的研究人员Yann LeCun还没有完全摆脱对CPU的依赖。他说:

“Facebook使用了基于GPU的基础设施来训练深度学习模型,传统CPU集群的处理速度的确太慢了。不过全新的多核CPU芯片,会与GPU产生差不多的效果。”


支持超级计算的软件

在人工智能被真正认识之前,极客们必须编写在超级计算机上运行的深度学习软件。但开发这样的软件可能还需要很多年时间才能完成。


吴恩达最初在Google构建“猫咪视频”的人工智能模型里,有10亿个参数,这才多少让计算机有了点儿人类认知的能力,可以区分照片和视频里的内容,比如是猫咪还是仓鼠。


劳伦斯利弗莫尔实验室已经构建出了包含150亿个参数的软件,是Google模型的15倍,人工智能识别能力也会更强大。实验室负责人Barry Chen说道:

“我们希望项目结束时,可以构建成世界上最大的神经网络训练算法,当然这需要高性能的计算机支持。”


Google的方式

那么,Google在做什么呢?它也在向GPU转型,不过选择了一条不同的路径而已。Google构建了一个全新深度学习系统DistBelief,在其庞大而蔓生的云系统上既可以运行GPU,也可以运行CPU。


Google将数字运算工作拆分成了数以百计的小集群,每个集群会配置1到32台计算机,如此巨大的计算能力让Google的人工智能软件水平有了很大提升,可以区分椅子和凳子,还能区分“Shift”和“Ship”这样的单词。


当然,Google数据中心内部的计算机也可能会当机,这是不可避免的,但是即便如此,也不会对Google造成太大的影响。事实上,Google整个系统的设计非常棒,用Google研究科学家Greg Corrado的话说,即便有计算机坏了,研究人员们甚至都不会察觉到。

“云计算VS高性能计算,其实和公司文化、可用资源、甚至是企业品味相关。作为Google研究人员,我当然为Google内部系统感到高兴。”


原文发布时间为:2015-02-17

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
云安全 人工智能 Cloud Native
科技向“实”万物生长,2023年云计算五大技术趋势展望
云计算也即将开启下一个十年的全新篇章
4940 0
科技向“实”万物生长,2023年云计算五大技术趋势展望
|
机器学习/深度学习 网络安全 决策智能
利用深度学习优化图像识别准确性的探索云计算与网络安全的融合:保护云服务的关键策略
【5月更文挑战第30天】 在计算机视觉领域,图像识别的准确性对于后续处理和分析至关重要。本文旨在探讨一种基于深度学习的方法来优化图像识别过程,通过构建一个更加精细和强大的卷积神经网络(CNN)模型,实现对图像特征的深层次挖掘和精确分类。文章首先回顾了当前图像识别中存在的挑战,接着提出一种新型的CNN架构,并通过实验验证了其在多个标准数据集上的性能表现。研究结果表明,该模型在提高识别精度的同时,还能有效降低误识率,为图像识别技术的进步提供了新的视角和解决方案。
|
弹性计算 云计算
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC自制脑图
259 1
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
|
机器学习/深度学习 人工智能 自然语言处理
2023北京智源大会亮点回顾 | 高性能计算、深度学习和大模型:打造通用人工智能AGI的金三角
北京智源大会中黄铁军表示,从“第一性原理”出发,通过构建一个完整的智能系统AGI,从原子到有机分子到神经系统、到身体,实现通用人工智能。这是一个大概需要20年时间才能实现的目标。分别包括大模型方向、具身方向,以及智源自己期望方向的进展。
|
机器学习/深度学习 人工智能 边缘计算
2021 re:Invent大会回顾:跟随Dr. Werner看云计算产业未来趋势
2021 re:Invent大会回顾:跟随Dr. Werner看云计算产业未来趋势
249 0
|
存储 边缘计算 容灾
阿里云资深技术专家李克畅谈边缘云计算趋势与实践
2021年5月15日,以“相信边缘的力量”为主题的全球边缘计算大会在深圳成功召开。 阿里云资深技术专家李克,分享阿里云在边缘云计算的探索和实践,如何为行业提供广覆盖、低成本、高可靠的边缘基础设施。
3017 1
阿里云资深技术专家李克畅谈边缘云计算趋势与实践
|
机器学习/深度学习 存储 人工智能
2021 年云计算的主要趋势
2021 年云计算的主要趋势
2021 年云计算的主要趋势
|
存储 SQL 安全
混合云计算和数据存储:关键混合云趋势
混合云计算和数据存储:关键混合云趋势
361 0
混合云计算和数据存储:关键混合云趋势
|
存储 安全 大数据
落地需新形式:盘点云计算五大应用趋势
落地需新形式:盘点云计算五大应用趋势
222 0
落地需新形式:盘点云计算五大应用趋势
|
人工智能 运维 监控
编排自动化成为2021年云计算十大趋势,对RPA有哪些影响?
编排自动化成为2021年云计算十大趋势,对RPA有哪些影响? 从2021年云计算十大趋势,看IT运维中的RPA发展机会
344 0
编排自动化成为2021年云计算十大趋势,对RPA有哪些影响?

热门文章

最新文章