NVIDIA为什么要造超级计算机DGX-1?

简介:

在今年硅谷的GTC上,NVIDIA发布了深度学习超级计算机DGX-1。黄仁勋称它是“装进机箱里的数据中心”。

DGX-1内置了8块基于Pascal架构的Tesla P100加速器和4块1.92TB的固态硬盘,使用比传统PCIe快5 -12倍的NVLink技术连接CPU与GPU以及GPU之间的数据传输。在深度学习训练上,它比一台普通的Xeon E5 2697 v3的双CPU服务器快75倍,整体性能相当于250台普通x86服务器。单台DGX-1的售价是12.9万美金。

NVIDIA为什么要造超级计算机DGX-1?

在GTC之后,黄仁勋亲自将第一台DGX-1送给了Elon Musk的人工智能项目OpenAI。NVIDIA还会将首批DGX-1优先发给近年对人工智能有突出贡献的研究机构,这个名单里包含了Stanford、UC Berkeley、CMU、MIT、香港中文大学等等。而在中国大陆,已经公开的信息是7月份海康威视通过曙光签下了国内第一单DGX-1;NVIDIA方面则告诉我们目前DGX-1在国内已有十来家客户。

在10月份刚刚结束的HPC China 2016上,我们和NVIDIA的高层聊了聊他们在高性能计算上的看法以及他们为什么要造这台超级计算机。

下一代程序大部分会由机器编写

NVIDIA负责解决方案与工程架构的副总裁Marc Hamilton在HPC China 2016上表达了这么一个观点,AI会催生一种新的计算模型,未来大部分程序不会是由人来编写,而是通过深度学习网络来编写。

他举了一个例子,过去编写的程序比如通讯录或者工资的发放,它们是非常规整的数字。而今天有大量更复杂的数据,比如图像、声音、视频。哪怕把13亿中国人都变成码农,也不可能编出足够多的软件来处理一天所产生的大量数据。所以大部分程序会由深度神经网络来编写,而NVIDIA相信大部分深度神经网络会运行在GPU上。

NVIDIA方面讲了2个案例:在上海,他们有一家生物医疗行业的合作伙伴,在通过深度学习对核磁共振、CT影像做分析进行癌症的审查和复核。而另一个在国内走得比较快的领域是安防,比如在视频中去比对疑犯照片或者是寻找特定的物体。这方面典型的合作伙伴如海康威视,后者所采购的DGX-1也是用于视频监控方面的深度学习研究。

DGX-1是一种傻瓜式的设计

DGX-1的设计可以回溯到2015年的GTC,当时NVIDIA公布了最新一代的Pascal架构,这一新架构会把一些关键的深度学习应用提升10倍以上的速率。但这一新架构也带来了新的问题:开发/研究人员可能要花数周甚至数月的时间配置这些GPU。所以在几个月后,黄仁勋在内部提出了一个要求:希望在第二年的GTC之前,由NVIDIA的工程部门打造一台基于Pascal架构的服务器,这样研究机构和公司们只要按下机箱按钮就能把8块GPU用在深度学习上。

今天我们看到的DGX-1并不是8块GPU捏在一起那么简单。Marc Hamilton告诉我们,DGX-1还囊括了3类软件和服务的整合。

第一是对所有深度学习框架的支持。比如Caffe、TensorFlow、CNTK...DGX-1对现在流行的深度学习框架都进行了优化。


第二类是底层的库,称为cuDNN,可以理解成是CUDA融合了Deep Neural Network。


第三类是DGX的云服务,等于从云上给DGX服务器做一个镜像。任何一家公司,他们未必知道如何去管理深度学习的系统软件,但知道怎样在云端管理一台DGX-1服务器。

当下,对NVIDIA来说,最大的挑战是如何快速普及深度学习,其中国区企业事业部总经理沈威说,深度学习是一个独特的市场,NVIDIA自己造DGX-1则是这个背景下的新尝试。Marc Hamilton告诉我们,要实现150个petaflop浮点计算的性能,如果基于多个GPU的话,需要3400个服务器,而如果使用传统x86的解决方案,则需要10万个服务器。对于程序员来说,维护这两个数量级的服务器,其中的选择是显而易见的。


本文作者:吴德新


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
11月前
|
人工智能 自动驾驶 数据可视化
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
|
缓存 图形学 芯片
高中低端全面领先英特尔:AMD还要发布64核Ryzen CPU
当 AMD 在今年 5 月推出其第三代 Ryzen 处理器时,英特尔不由感到如临大敌:它一直以来的竞争对手研发出了一种全新的体系结构,提升了频率,内核数和指令速度,并保证了整体性能。在单核性能上,同级别的 AMD CPU 现在已经可以匹敌英特尔,而在多核性能与价格上,AMD 则占据了不小的优势。
194 0
高中低端全面领先英特尔:AMD还要发布64核Ryzen CPU
|
机器学习/深度学习 人工智能 数据安全/隐私保护
全球首款7纳米GPU芯片问世,AMD抢发没给英伟达机会
AMD今天公开展示了全球首款7纳米制程的GPU芯片原型,含有32GB的高带宽内存,专为人工智能和深度学习设计,用于工作站和服务器。
1241 0
|
机器学习/深度学习 人工智能 异构计算
|
并行计算
英伟达显卡的使用
Nvidia 1080 Ti跑程序 先让我兴奋的大笑三声: 哈!哈!哈! 终于有了1080ti来跑程序了,终于不用等好久才能调一次参数了。
946 0
|
机器学习/深度学习 测试技术 芯片
|
人工智能 并行计算 异构计算