北京科学智能研究院蔡淳:阿里云倚天710实例助力ABACUS新实践

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 稳定的主频,扩展性优秀以及超高的性价比

编者按:2022115日,“倚天开启云原生算力新时代”专场在杭州·云栖大会D馆云栖科创SHOW场举行,北京科学智能研究院高性能计算团队负责人蔡淳发表了《倚天助力AI for ScienceABACUS新实践》的主题分享。本文根据该演讲整理而成,主要分为三个部分:

1.  AI for Science探索材料研发新范式

2.  倚天710的适配与调优

3.  基于E-HPC的万核级别算例验证

 1-尺寸调整.jpg


图:北京科学智能研究院高性能计算团队负责人 蔡淳

 

01  AI for Science探索材料研发新范式

 

2.PNG

 

首先,讲一讲AI for Science如何定义材料研发流程中的新范式。材料创新是药物设计、新能源等领域发展的源动力。材料研发的范式由传统的大量重复实验试错,升级为先通过理论模拟筛选出可能的材料,再进行验证研发的计算驱动流程。

 

但是,在进行理论模拟的过程中,维数灾难阻碍了高精度计算的进行。借用保罗·狄拉克所说:“有了量子力学之后,对于所有的化学问题和大部分的物理问题,所依照的基本物理定律都已经明确,困难仅在于这些定律的精确应用会导致数学方程过于复杂而无法求解。”

 

3.PNG

 

为了解决维数灾难的问题,科学家把最基础、最精确的物理模型层层抽象,在不同体系中,选择相对应的物理模型,以保证能在合理的时间内给出计算结果。但不同尺度的物理模型,在时间和空间上有多个数量级的差异,结果的精度也有不小差距。

 

AI for Science方法旨在解决上述问题:它能够通过机器学习的方式,将高精度方法下学习的特征应用到更大体系下,同时拥有高精度的计算结果,以及高效率的求解时间

4.PNG

 

在原子尺度分子模拟方法方面,还存在一些挑战。传统的分子动力学方法,需要科学家提供力场经验参数,势函数开发周期非常长。

 

对于密度泛函理论(DFT)来说,DFT软件的代码分支非常庞杂,研发周期长;DFT算法使用了交换关联泛函近似,但精度越高的近似方式计算量越大。

 

5.PNG

 

深度势能方法是基于机器学习的分子动力学方法。它很好地耦合了科学计算、机器学习与高性能计算。

 

左侧的图展示了深度势能方法的训练流程。它通过DFT计算原子势,用神经网络学习势函数,最后将它应用到分子动力学中,从而实现高效率、高精度的计算。

 

上图中间的结果,展示了深度势能方法和传统DFT方法计算得出的分子径向分布函数对比,其结果非常一致。

 

6.PNG

 

DFT是一种通过求解薛定谔波函数方程,直接求解物质性质的算法。

 

假设给定一个晶体的晶胞参数等信息,通过DFT方法计算可以得到它的电导率、体系密度等基本的物理性质。它是几乎不需要经验参数的第一性原理方法。研究者也凭借着这项工作获得1998年的诺贝尔化学奖。

 

7.PNG

 

如上图公式所示,密度泛函理论的核心是,将系统的总能量E表示为电子密度ρ的泛函。

 

左下角展示了DFT的雅各布天梯,从最简单的局域密度近似开始,以计算量为代价,逐渐接近通过精确的量子力学方法计算得到的结果。DeePKS方法采用神经网络模型表示高精度方法与低精度方法之差;研究人员可以使用DeePKS软件,先使用低精度的泛函,用比较高的效率给出结果,再将结果加上DeePKS方法给出的修正值,从而让计算结果逼近高精度的泛函。右图是水分子中氧元素之间距离的径向分布函数:DeePKS方法和高精度DFT方法计算的结果能够很好的吻合;相比之下,使用PBE泛函的计算结果会出现比较大的偏差。

 

8.PNG

 

AI+材料科学范式需要依赖DFT软件为AI模型训练产生数据;训练中的模型会再次影响DFT软件的计算结果,这一过程需要反复迭代直至收敛,其中需要进行大量的DFT计算。

 

9.PNG

 

ABACUS(中文名“原子算筹”)是一款国产开源的密度泛函理论软件。ABACUS最早是由中科大的何力新老师课题组发展起来的,并且在20213月加入Deep Modeling开源社区。

 

作为一款科学计算软件,ABACUS研发突破了传统课题组的代码开发方式,把代码托管在GitHub平台,欢迎开源贡献者一起进行新功能的开发以及错误的修复。


加入DeepModeling社区之后,ABACUS迎来了来自中科大、北京大学、物理所以及北京科学智能研究院(AISI)等不同单位的贡献者。

 

值得一提的是,北京科学智能研究院(AISI)是鄂维南院士在2021年建立的首个以AI for Science为使命的科学研究机构

 

02  倚天710的适配与调优

10.PNG

 

接下来,为大家介绍ABACUS如何迁移到倚天710云平台。倚天710的操作系统是阿里云提供的Ali Linux3,它能够很好地支持现有Linux的软件生态。用户在安装软件时,可以直接从包管理器下载需要的依赖,不再需要重新手动编译。

 

倚天710芯片是基于ARM v9架构开发的,支持SVEINT8mmBF16mm等指令集加速。除此之外,ARM平台为大家提供了高性能的数学库,它可以让研究者注重算法开发,不需要操心矩阵计算的实现方式。

 

11.PNG

 

上图是ABACUS自带算例进行的性能对比图。最右边一列是倚天710的计算时间,它和七代x86架构CPU以及六代高频实例,在计算时间上是一致的。

 

需要注意的是,上面的测试中倚天710使用的实例是4xlarge规格,仅为x86实例的一半。这个结果得益于倚天710独立物理核心独立cacheALU性能,且无超线程损耗

 

03  基于E-HPC的万核级别算例验证

12.PNG

 

研究人员在阿里云E-HPC上,进行了贴近实际算力的验证。阿里云团队提供的弹性高性能计算E-HPC服务,从ECS的虚拟机镜像创建计算节点,实现计算集群资源的弹性伸缩,保障计算在云上与本地超算类似的操作体验下高效进行。

 

E-HPC在创建ECS实例时,可以选用竞价实例,让时间要求不敏感的科学计算任务,在云平台资源使用的低谷期,以非常低廉的价格进行科学计算。

 

13.PNG

 

ABACUS针对350 eV的极端高温下的32个硼原子体系,在由倚天710实例构成集群上进行了最新发展的Stochastic DFT方法的计算。

 

如上图所示,研究人员使用了11008个倚天710CPU核心,即86128核节点。这是一个弱扩展的任务,每个核心数的运算量是一定的,计算资源消耗随着核心数增加而线性增加

 

ABACUS实现的轨道并行和K点并行两种不同的任务划分模式下,计算时间都在有限范围内增长,并行性能非常好。在软件精度方面,不同的核心数计算得到的能量和压强一致,计算结果是正确的。

 

每个展示的数据点都由十个随机种子初始化进行计算,以避免系统性的随机误差。随着计算量的增加,压强和能量的标准差在不断地收敛,直至理论的最优值。在实际运算时,研究员可以针对下游任务需要的精度,选用相应的核心数进行计算。

 

14.PNG

 

本次实验验证了倚天ECS实例的下列优势:

 

首先,倚天710有着稳定的主频,它能够保证在高密计算的科学计算场景下不降频,保持性能输出的一致性。

 

其次,倚天710实例的扩展性优秀,它能够在1万级别的核心规模上,实现接近线性的加速。

 

最后,倚天实例的性价比相较于x86非常高,研究院可以节省将近70%的成本。


倚天帮助我们在传统的科学计算任务由本地超算部署到云平台的过程中,实现降本增效。

相关文章
|
12天前
|
存储 SQL BI
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
|
14天前
|
算法 物联网 数据库
阿里云 OpenSearch RAG 应用实践
本文介绍了阿里云OpenSearch在过去一年中在RAG方面的应用和探索。
413 2
阿里云 OpenSearch RAG 应用实践
|
1天前
|
负载均衡 测试技术 网络安全
阿里云服务网格ASM多集群实践(一)多集群管理概述
服务网格多集群管理网络打通和部署模式的多种最佳实践
|
1天前
|
存储 弹性计算 NoSQL
阿里云服务器企业级实例购买及变配常见问题及解答
阿里云服务器企业级实例具有高性能、稳定计算能力和平衡网络性能的特点,因为具有独享且稳定的计算、存储、网络资源,这些实例规格族非常适合对业务稳定性具有高要求的企业场景。企业级云服务器拥有完全的云服务器cpu、内存使用资源,不与他人共享云服务器资源。有些新手用户不知道什么是企业级实例与共享型实例有何区别,在使用过程中需要注意些什么,下面是小编整理的几个阿里云企业级云服务器实例常见问题及解答,以供大家了解。
阿里云服务器企业级实例购买及变配常见问题及解答
|
2天前
|
弹性计算 固态存储 JavaScript
阿里云4核8g服务器多少钱?云服务器u1实例700元1年
阿里云4核8G ECS u1实例,支持约30个并发用户,适合日均1万IP访问。当前优惠价为700元/年。配置包括Intel Xeon处理器,4核8GB内存,1.5Gbps带宽,最高25万连接数,云盘IOPS达2万。公网带宽和应用效率影响并发数,3M带宽理论可支撑12个用户同时访问。系统盘为20-40GB ESSD Entry。
|
4天前
|
自然语言处理 Cloud Native Serverless
|
4天前
|
存储 网络协议 安全
阿里云hpc8ae实例商业化发布详解
近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。
|
6天前
|
存储 弹性计算 安全
阿里云服务器2核4G、4核8G、8核16G实例选型指南:经济型、通用算力型和计算型选择参考
2核4G/4核8G/8核16G配置的云服务器在阿里云目前的活动中有经济型e、通用算力型u1和计算型c7、计算型c8y、计算型c7a等计算型实例可选,虽然配置相同,但是这些实例规格之间的性能和价格差别是很大的,因此,我们有必要弄清楚他们之间的差别,这样才能根据自己的需求选择最适合自己的实例。
阿里云服务器2核4G、4核8G、8核16G实例选型指南:经济型、通用算力型和计算型选择参考
|
7天前
|
云计算 存储 数据可视化
阿里云研发工程师:HPC优化实例动手实验讲解
近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。
阿里云研发工程师:HPC优化实例动手实验讲解
|
7天前
|
存储 机器学习/深度学习 编解码
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考
在阿里云提供的众多计算型云服务器实例规格中,计算型c7和计算型c8y实例是两款备受关注的云服务器规格。主要适用于网站应用、批量计算、视频编码等各种类型和规模的企业级应用,对于初次接触阿里云服务器的新手用户来说,可能并不是很清楚他们之间的区别,因此可能不知道怎么选择。本文将从实例的架构、处理器、存储与网络能力、使用场景、指标数据、收费标准以及实时活动价格等多个维度,对计算型c7和计算型c8y实例进行深度解析,以供参考和选择。
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考

热门文章

最新文章