高性能计算深入科研,联想HPC助力南科大组建世界级超算环境

简介: 高性能计算深入科研,联想HPC助力南科大组建世界级超算环境

“我们南方科大是2012年正式批准建立的,到今年也不过7年的时间,却已经在泰晤士报世界大学排名上已经排到了中国第八的位置。”南方科技大学副校长兼总务长鲁春的第一句话就让笔者不明觉厉。

不仅如此,在2018年高性能计算HPC TOP500榜单中,南方科技大学(简称南科大)还是我国唯一入榜的高校级高性能集群,总排名位列127位。看来,这所被誉为“中国高等教育改革试验田”的工科大学,真的是有很多“独门秘籍”。本文就试图帮你揭开南方科技大学逆袭跃升的神秘面纱。

image.png


科研的新动能


对中国高等教育领域有所关注的人或许知道,南方科技大学是深圳在中国高等教育改革发展的宏观背景下创建的一所高起点、高定位的公办创新型大学,肩负着为我国高等教育改革发挥先导和示范作用的使命,具有鲜明的时代特色和改革创新精神,致力于服务创新型国家建设和深圳创新型城市建设。

据了解,南科大在一系列新的学科方向上开展研究,比如其在新型物理、材料领域的创新成果,包括凝聚态物理等前沿理论,位居国内科研领域的前沿。在物理、生物、化学、材料、航空、能源、环境工程等学科,对科学计算的需求巨大。

“我们的教授大概有80%都是从国外回来的,他们回国最看重的不光是待遇,而是科研实验的平台,目前越来越多的科研项目都是计算机模拟而来,因此HPC计算平台的重要性不言而喻。”鲁春解释说,“如果没有很好的计算资源和存储资源,如果没有平台,这些高级教授人才回来做不了科研也就没有了意义。”

image.png

南方科技大学副校长兼总务长鲁春


鲁春举了个例子,比如南科大也在做无人机空气动力的研究,如果是完全用实体飞机来做实验,很多时候对实验实体是破坏性的,成本非常高,倒不如利用算法模型,模拟全天候和各种恶劣气候条件下的机翼性能优化,这时候就需要进行空气动力学的大量计算。

在生物信息学领域,人体脑电波在不同的场景下,会产生什么样的变化,都产生出大量的数据,脑电波与行为之间的关系,都需要进行大量的计算。


痛点破解


很显然,随着IT技术越来越广泛地应用在各行各业,应用在各个学科的科研项目里的时候,学校对HPC的需求就越来越大。

“南科大一年差不多招60个左右教授进来,从我们2015年搭建一期300节点的HPC集群的时候,当时南科大只有200名教授左右,到如今近400名教授,大部分教授都有计算需求,显然一期的计算资源、存储资源很快就无法满足校内科研项目的计算需求。”鲁春表示。

在这样的情况下,南科大启动了二期HPC集群的采购,同时也吸取了一期搭建过程中的一些经验:比如改进一期系统采用开源软件系统所带来的一些易用性和排队优化方面的问题,比如改进设备在可靠性方面的问题,从而减少日常维护对于有限HPC设备管理人员的时间消耗。

image.gifimage.png

南方科技大学二期HPC集群采用了联想深腾x8810高性能计算系统


据悉,联想为南科大提供了一套世界领先的深腾x8810高性能计算系统——采用了英特尔®至强®铂金处理器,系统组成包括815个SD530模块化节点、GPU节点4个、KNM节点4个、FPGA节点2个、DSS-G存储容量5.5PB,系统计算网络为Intel最新的1152端口OPA。

这一系统建成后,成为当前亚洲高校中最大的HPC校级平台之一,系统理论峰值性能超过2.5PFlops,实测Linpack效率超过65%。


科研“邂逅”高性能计算


“超算从用户的角度来说主要是两大块,一方面是它的基础的计算能力和存储性能不断刷新纪录,另一方面是我们不同学科教授使用机器时不同的需求,如何能进行平衡。”鲁春说,“我们通过邮件调研所有教授的需求,比如材料系要做原子量级、电子量级的计算,对计算量的要求会非常巨大;比如计算机系更多的是关注人工智能,对AI算法的运算力是不是足够高;比如生物系可能要求的计算性能不是特别快,但对存储的性能要求很高,综合考虑,最后形成我们的招标需求。

举个例子,作为国内计算材料物理的先行者,南科大高性能材料分析模拟平台的效率将直接关系到我国计算材料物理领域的发展速度和水平。因此,南科大物理系对VASP计算节点的效率要求十分严格。

因此南科大在平台招标中明确提出:高性能材料分析模拟平台需要提供强大的计算能力,具备高度的智能管理能力,以及高速/高吞吐量/低延迟的交互网络,并且可进行灵活高效的任务调度和快速部署扩展。

“南科大的资金来源于深圳市政府,因此招投标严格按照政府资金使用的程序由深圳市采购中心公开进行。最终分数最高的中标。”鲁春介绍说。

image.png

南方科技大学科学与工程计算中心主任工程师(高级工程师) 范靖和身后的Top500证书


众所周知,联想在HPC领域优势明显,2018年11月在最能体现厂商整体实力的全球高性能计算TOP 500榜单中,以140套的份额再度问鼎HPC TOP500榜单全球第一,在国外、国内都有非常多的成功案例。在性能和可靠性上,联想服务器实测的整体性能和可靠性均为同类产品最优;在第三方评测机构ITIC提供的可靠性报告中,联想的服务器产品平均无故障时间可达99.999%以上,可以为客户提供高可靠保障。

“南科大今天虽然才不到400位教授,但是在2018年的Nature Index的70多个刊物里发的文章数排在所有中国大学中的第26位,但是在所有大学发表的文章的被引用量已经排名全中国第一了。”鲁春透露了南科大在2018~2019的泰晤士排名位居中国第八的秘密,“被引用量应该说明了教授产生的科研成果质量,这或许是我们排名靠前的原因之一。”

相关文章
|
2月前
|
资源调度 监控 调度
HPC高性能计算场景中如何实现“运行时调度”
在HPC高性能计算中,使用LSF或Slurm提交作业虽方便,但过程往往不可控,作业运行如同黑盒,失败后才能排查问题。为此,MMCloud提出“运行时调度”理念,实现在任务运行过程中进行智能资源调度,最大化资源利用并优化成本效益。与传统工具不同,MMCloud能够实时监控任务状态,并根据算力需求动态调整资源分配。
67 0
|
6月前
|
存储 数据可视化 大数据
高性能计算HPC优化实例在摩托车外流场仿真场景的最佳实践
本文整理自阿里云高性能计算研发工程师曹杭在【HPC优化实例商业化发布会】中的动手实验分享,集中讲解HPC优化实例动手实验Demo细节。
|
7月前
|
机器学习/深度学习 存储 并行计算
|
存储 弹性计算 并行计算
在高性能计算(HPC)场景下,阿里云存储的文件存储产品的实践
在高性能计算(HPC)场景下,阿里云存储的文件存储产品具有以下的应用需求和实践
457 4
|
弹性计算 云计算
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC自制脑图
207 1
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
|
机器学习/深度学习 人工智能 并行计算
带你读《生命科学行业云上解决方案及最佳实践》——GHDDI,阿里云高性能计算助力 药物研发实现高通量分子筛选
带你读《生命科学行业云上解决方案及最佳实践》——GHDDI,阿里云高性能计算助力 药物研发实现高通量分子筛选
229 0
|
存储 人工智能 并行计算
【高性能计算】HPC概述
【高性能计算】HPC概述
|
机器学习/深度学习 人工智能 编解码
高性能计算HPC照亮AIGC未来:PC集群+Stable Diffusion 打造极致游戏体验
随着计算能力和技术水平的不断提高,PC集群和Stable Diffusion集成在游戏行业中的应用将会更加广泛,可以为游戏开发者和分析师提供更多一流的工具和技术支持,从而推动整个游戏产业迎来新的发展机遇。
|
存储 人工智能 弹性计算
阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合
与AI相结合,高性能计算能够帮助科研人员将精力集中于专业领域。
阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合
|
存储
《HPC高性能计算数据存储解决方案蓝皮书》电子版地址
HPC高性能计算数据存储解决方案蓝皮书
140 0
《HPC高性能计算数据存储解决方案蓝皮书》电子版地址

热门文章

最新文章

下一篇
DataWorks