备受关注的美国Summit超级计算机现在已经在美国橡树岭国家实验室(ORNL)运行。这台新的超级计算机被非官方地称为“世界上最强大的计算机”。而且,它的设计部分是为了扩大人工智能技术的应用范围。
自2013年6月“世界最强超算”的桂冠被中国的神威·太湖之光超级计算机摘取以来,美国一直没有拥有夺回这个称号。Summit超算预计在本月晚些时候正式发布,届时国际“TOP 500”组织将正式发表世界超级计算机Top 500榜单。除非中国本月爆出大惊喜,否则新的排名公布后,Summit将使美国重回超算Top 500榜单的第一名。
尽管在云计算和大型数据中心的时代,超级计算机已经失去了一些吸引力。但许多棘手的计算问题仍需要大型的机器。美国政府去年发布的一份报告提出,美国应加大对超级计算机的投资,以便在核武器和高超音速飞机等国防项目,以及航空、石油勘探和制药等领域的商业创新等方面赶上中国。
Summit:比普通笔记本电脑快100万倍,比神威·太湖之光快2倍
Summit超算由IBM和NVIDIA为美国能源部的橡树岭国家实验室制造,其占地面积相当于两个网球场大小,为了冷却其37000个处理器,周围的循环系统每分钟要消耗4000加仑的水。尽管美国能源部(DOE)尚未透露Summit的Linpack测试结果,但橡树岭国家实验室表示,Summit的峰值运算速度达到200 petaflops,也就是每秒浮点运算次数达到200千兆次。这比普通笔记本电脑的运算速度快100万倍,是神威·太湖之光(93.01 PFLOPS)峰值性能的两倍有多。
200 petaflops是什么概念呢?如《纽约时报》所述,一个人需要花630亿年的时间来完成Summit一秒钟内可以完成的计算。而MIT技术评论说,“地球上的每个人每天每秒钟进行一次计算,持续305天,才能完成Summit超算眨眼之间可以做完的事情。”
Summit超级计算机的4608台服务器内部的视图。图:橡树岭国家实验室
尽管Summit的基本规格已经公开有一段时间了,但这里还是有必要重新介绍一下:Summit由4608个节点组成,每个节点包含两个Power9 CPU和6个NVIDIA Tesla V100 GPU。节点与Mellanox双轨EDR InfiniBand网络连接在一起,为每台服务器提供200 Gbps的速度。
假设所有这些节点都配备齐全,GPU单独将以双精度提供峰值215 petaflops。此外,由于每个V100还提供125 teraflops的混合精度 Tensor Core 操作,系统对深度学习运算的峰值性能大约为3.3 exaflops。
exaflops级的性能也不仅仅是理论上的。根据ORNL主任Thomas Zacharia的说法,在早期的测试中,橡树岭国家实验室的研究人员在一个分析人类基因组序列变化的项目中,使用Summit超算每秒进行了超过10的18次方次的计算。他们声称这是科学计算第一次达到这样的计算规模。
比以往任何超算都更适合机器学习技术
美国新推出的这台最强超算不仅仅对计算力的地缘政治意义重大。它的设计比以前的超级计算机更适合运行谷歌、苹果等科技公司流行的机器学习技术。
研究人员发现,图形芯片可以为深度神经网络技术提供更多计算力,这也是计算机可以在声音识别、棋盘游戏等方面打败人类的一个原因。Facebook最近披露,一个使用数十亿张Instagram照片的人工智能实验,在近一个月的时间里占据了数百张显卡
Summit拥有近28000个英伟达(Nvidia)生产的图形处理器,以及IBM生产的9000多个传统处理器。对于超级计算机来说,使用大量的图形芯片是不常见的,因此它应该能在部署机器学习以处理艰难的科学问题方面实现突破。橡树岭国家实验室主任Thomas Zacharia说:“我们打造了世界上最强大的超级计算机,但它也是世界上最聪明的超级计算机。”
Summit的数千台服务器占地有两个网球场那么大。图:Carlos Jones/橡树岭国家实验室
当然,Summit还将支持美国能源部最感兴趣的标准科学规范,特别是那些与核聚变能源、替代能源、材料科学、气候研究、计算化学和宇宙学等相关的科学规范。但由于这是开放的科学系统,可用于所有类型的研究,可以与能源无关。Summit也将用于医疗保健的应用领域,如药物发现、癌症研究、成瘾和其他类型的疾病研究。事实上,在宣布该系统投入使用的新闻发布会上,Zacharia表示,他希望橡树岭国家实验室成为“医疗数据分析领域的欧洲核子研究中心”。
“分析”与Summit的深度学习倾向非常吻合,因为前者实际上是后者的叠加。早在2014年,当美国能源部第一次签约Summit系统时,能源部可能只对他们将得到的AI能力有一个粗略的概念。尽管IBM在将Power9-GPU平台提交给美国能源部之前一直在宣传其以数据为中心的超级计算方法,但当时人工智能/机器学习应用领域仍处于初级阶段。由于NVIDIA决定将专用的 Tensor Cores 集成到V100中,Summit最终成为了一个AI巨兽,同时也是一个强大的HPC机器。
因此,除了高性能计算的之外,该系统还可能参与大量尖端的人工智能研究。目前,Summit只对经选择的项目开放。到2019年,该系统将变得更加广泛可用,包括将用于理论与实验创新计算项目(INCITE)。
到时,Summit的前任Titan超级计算机很可能会退役。Summit的性能约为Titan的8倍,能效提高5倍。当橡树岭在2012年安装Titan时,它是当时世界上最强大的系统,也是美国最快的超级计算机(现在是第二快)。Titan也拥有NVIDIA GPU,但这些都是K20X图形处理器,其机器学习能力仅限于每个设备四个单精度teraflops。幸运的是,为Titan开发的所有支持GPU的HPC的代码都应该能够轻松移植到Summit上,并且应该能够充分利用V100更高的计算能力。
伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心的研究员Eliu Huerta将Summit的庞大GPU池描述为“像梦境一样”。Huerta此前曾在一台名为Blue Waters的超级计算机上使用机器学习技术,在LIGO天文台的数据中探测引力波。LIGO天文台的两位创始人因此获得了2017年诺贝尔物理学奖。Huerta希望Summit的成果将有助于分析预计将于2019年启用的大型天气观测望远镜每晚接收到的约15 TB的图像。
Summit还将被用于在化学和生物学的问题中利用深度学习技术。 Zacharia说,这项研究可能有助于能源部的一个项目,该项目使用来自2200万退伍军人的医疗记录,其中包括大约25万人的完整基因组序列。
有些人担心美国在超大规模计算机上的竞争力,他们希望,Summit将激发对打造其继任者的更多兴趣。
Summit还将发挥另一个重要作用,即为E级科学应用提供一个发展平台。作为橡树岭国家实验室的最后一个petascale系统,这台200 petascale的超算将成为未来几年一系列HPC代码向exascale机器转移的垫脚石。现在,随着Summit的完成,这似乎不再是一个遥远的前景了。“毕竟,(E级计算)离我们现在的超算能力只差5倍,”Zacharia笑着说。
美国、中国、日本和欧盟都宣布了第一台“E级”(exascale)计算机——每秒计算能力超过千万亿次——这是大规模计算的下一个里程碑。美国信息技术与创新基金会全球创新政策副总裁Stephen Ezell说,中国宣称将在2020年实现这一里程碑,如果Summit的继任者Aurora按照计划完成,美国可能会在2021年实现这一目标。但该计划此前曾被推迟。“高性能计算对于一个国家的国家安全,经济竞争力和应对科学挑战的能力来说都是必不可少的,”Ezell说。
原文发布时间为:2018-06-9
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。