超级计算,超级未来

简介: 超级计算,超级未来

数字化的时代,创新真正意义成为了引领发展的第一动力。

 

可是创新的代价是高昂的,这不仅仅是研发的成本,而是研发的效率。我们知道,互联网时代创新迭代的速度变得飞快,对很多科研院所来说,让研发的项目有意义的首要原则就是,加快创新的速度。


image.png


这就是为什么很多大学实验室会选择超算的原因。用超算中心提供的强大计算力,去满足大量创新项目的计算需求,缩短研发的周期,进而推动创新的高效。某种意义上,超算就是高性能的巅峰,所以对高性能计算需求旺盛的高等院校和科研机构是超算应用的主要应用场景。

 

LLSC遇到了计算力的挑战

 

和很多全球著名的研究室一样,麻省理工学院林肯实验室致力于支持研究和开发,旨在解决对国家至关重要的问题。其研究涉及多个领域,如空间观测、自动驾驶、通信、网络安全、机器学习、传感器处理、电子设备、生物信息学和空中交通管制等等。

 

可以想象,如此多研究项目的计算力需求会有多么巨大,而且林肯实验室要做到的,是能够把项目从最初的概念阶段,通过模拟和分析,推进到设计和构建工作原型阶段。


image.png


所以,麻省理工学院林肯实验室超级计算中心(LLSC)通过提供互动式的、按需的超级计算功能和大数据处理功能,以零碳足迹的方式满足数千名名麻省理工学院科学家和工程师的超级计算需求。

 

LLSC 的管理者Albert Reuther表示,LLSC新型超级计算机的价值在于满足科学家和工程师的需求,这些科学家和工程师正在不断承接更大更难的问题。 “当我们的用户受到挑战时,他们会期望有更大规模的计算平台,这种期望反过来会对我们形成挑战,这正是我们想要的局面,我们也希望解决真正的难题,麻省理工学院的难题,这些难题甚至事关国家的安全。” Reuther说。

 

需要强调的是,科研院所和高校是超算最主要的使用者,但他们并不是超算的专家,在软硬件方面还是会面对很多的挑战。

 

以LLSC为例,需要管理多种超级计算资源组合,包括基于Intel和AMD的服务器、NVIDIA®GPU、现场可编程门阵列(FPGA)和正在使用的Intel®Xeon Phi™多核系统。这些超级计算资源与希捷和DDN的大型并行文件系统、大型数据文件系统(如Apache™Hadoop®平台)和高速数据网络集成在一起。

 

显然,LLSC还是需要有专业的超算专家来为科研院所提供专业的服务。在对技术和供应商进行筛选后,LLSC选择了戴尔易安信和基于英特尔®Xeon Phi™处理器和英特尔®Omni-Path网络架构的系统。

 

戴尔易安信是一个严肃的选择

 

实际上LLSC之所以选择了戴尔易安信,也是经过了严格的实际测视。

 

我们知道,任何一台超级计算机都是简单的软硬件组合,而是系统架构不断演进的过程。例如在处理器方面,微处理器大举进入超算,CPU从单核演变到多核,并出现了针对超算而优化的芯片和架构等等。


image.png


从LLSC本身来看,对系统性能的要求是苛刻的,而且项目的时间表很紧凑。在系统级别,目标是创建千万亿次级的超级计算机——基于648台采用英特尔至强Phi处理器的服务器,这些服务器具有双高速OmniPath和10GB光纤互连。在项目层面,目标是在一个月内交付和部署系统,并对系统实施基准测试。

 

最终在戴尔易安信的帮助下,LLSC实现了这些目标,超级计算机在不到一个月的时间内成功上线,并使用高性能Linpack(HPL)进行了基准测试,日常的使用可以达到1.032 petaflops的速度。该系统拥有大约40,000个核心,峰值速度约为1.7 petaflops。

 

正是由戴尔易安信解决方案提供了项目所需的计算性能、网络带宽和软件支持方面的强大组合,满足了LLSC在系统自治、器件物理和机器学习领域实现计算密集型研究的长期目标。

 

所以,LLSC系统工程师Matthew Hubbell说“戴尔易安信长期以来一直是我们非常棒的合作伙伴,戴尔易安信的高性能计算团队非常了解我们的需求,并展示了丰富的经验。他们拥有极致的响应能力。这些能力对我们在一个月内交付petaflop级别的运算系统至关重要。只有非常有组织和有能力的团队才能实现这一目标,这些团队高效地聚集在一起,提供的资源真正超出了我们的期望。”

 

超算可以适应未来更多的发展需要

 

从技术的角度看,超算已经经过了几代技术的演变,并开始逐渐与云计算、大数据和AI等技术相结合,并发展出CPU+GPU等新的异构计算架构等等。

 

的确,实验室研究员兼LLSC负责人Jeremy Kepner表示,超级计算机的功能将对研究人员的工作产生重大影响,他们的工作主要围绕机器学习、设备模拟和自治系统开展,这是研究中心当前的三个重点领域。

 

“我们非常高兴能够突破这三个领域的计算瓶颈,我们可以通过基于革命性的英特尔Knights Landing处理器的戴尔易安信新系统提供这种计算能力。在这个超级计算平台上,每个处理器都可以同时瞬间进行数千次操作,同时还可以通过极其强大的网络连接在一起。” Kepner说。


image.png


同时,LLSC团队也期望继续发展并不断开发交互式的、按需的超级计算和大数据计算能力,为自治系统、器件物理和机器学习提供更好的支持。同时,LSC团队已经在考虑为满足用户不断变化的需求而在下一步需要做哪些工作。历史表明,用户将继续提出越来越大的数据集,更大更难的问题,而这将需要更大、更快的超级计算机。而戴尔易安信应该还是LLSC在未来对超算需求的首选。


相关文章
|
机器学习/深度学习 人工智能 分布式计算
算力介绍2
算力介绍2
131 2
|
机器学习/深度学习 数据处理 云计算
算力介绍3
算力介绍3
134 2
|
机器学习/深度学习 存储 算法
算力介绍1
算力介绍
317 1
|
1月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构弹性裸金属和超级计算集群有什么区别?
阿里云服务器架构弹性裸金属和超级计算集群有什么区别?
191 1
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器x86、ARM计算、弹性裸金属服务器、超级计算集群实例架构有何不同?
阿里云服务器在架构上有x86计算、ARM 计算架构、异构计算GPU/FPGA/NPU、弹性裸金属服务器(神龙),超级计算集群之分,对于很多新手用户来说,并不清楚这些云服务器实例架构有何不同,不是很了解他们各自有什么特点和适用场景,本文来为大家简单介绍下这些云服务器实例架构的主要特点和适用场景,以供大家参考选择。
660 0
阿里云服务器x86、ARM计算、弹性裸金属服务器、超级计算集群实例架构有何不同?
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86、ARM、GPU/FPGA、裸金属、超级计算详解
阿里云服务器架构X86计算_ARM_GPU/FPGA/ASIC_裸金属_超级计算集群
365 0
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍
阿里云服务器架构x86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍,阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
250 0
|
存储 弹性计算 运维
阿里云裸金属服务器是什么?
阿里云裸金属服务器是什么?
|
存储 弹性计算 运维
阿里云裸金属服务器是什么?详细介绍
阿里云裸金属服务器是什么?详细介绍阿里云弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,原神龙服务器,计算性能与传统物理机无差别,具有安全物理隔离的特点,裸金属服务器分钟级的交付周期
236 0