阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。

随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术手段,以高性能计算服务为核心的高性能计算云(HPC Cloud)受到业界的广泛关注


为了进一步凝聚产业共识,推进高性能计算云产业发展,2021年12月21日,计算网融合产业及标准推进委员会联合超级计算创新联盟,召开首届高性能计算云(HPC Cloud)产业发展论坛,邀请了学术界与产业界专家,以 “云化超算,智启未来”为主题,从技术研究、应用部署、实践发展等多个方面进行精彩演讲。

1-南坡VS北坡-阿里云高性能计算行业实践_00.jpg


在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡VS北坡,阿里云高性能计算HPC-as-a-Service行业实践》的主题演讲。


 

01 阿里云高性能计算的发展


超算通过互联网的方式去部署和交付已经成为趋势。何万青表示阿里云的高性能计算已经发展了四到五年,目前部署在很多工业和行业计算的相关垂直业务,比如汽车仿真、影视后期渲染、AI生物制药、气象业务等领域。


基于过去十多年在线下HPC的技术观察,谈到传统超算系统转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service顶峰。在北坡,云公司借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的快速组合及SaaS服务,超越以提供“核时”和“算力”为核心的模式,强调整体科研业务上云。

2-痛点需求.jpg


2020年是高性能计算在稳定性、弹性以及计费敏感性方向发展最快的一年,很多重大任务在阿里云已经可以大规模的部署,阿里云在去IOE的过程中,可以使超70%硬件故障无感消除,在公共云大计算产品端,云超算SCC第七代实例规格全新上线。

3-南坡VS北坡-阿里云高性能计算行业实践_03.jpg


在神龙计算平台上,它的优势包括虚拟化网络高效卸载,物理网络、存储和计算完全解耦,避免资源争抢。神龙eRDMA功能2021年也正式上线,实现CPU实例和GPU实例并池和混合部署,极大扩展CPU和GPU实例集群范围。从POD扩展到可用区、数据中心,平台支持更大规模的弹性伸缩,同时支持VPC网络、eRDMA网络、存储网络三网合一。在数值天气预报中,eRDMA会极大提升应用规模和并行效率。

image.gif

4-.png

 

02 阿里云高性能计算Cloud Stack


何万青表示,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁移等功可以从底层对客户透明实现。在ISV层,服务是通过工作流的方式提供,数据搬移不仅是物理方式,而是通过高速网络,一次性的上载来完成任务交付。在跨数据中心的计算集群上,完成三网合一,现有调度器完全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,全球只有阿里云能够在运行过程中实现队列绑定不同的实例。

5-公有云EHPC.jpg


 

03阿里云高性能计算应用方案


7-南坡VS北坡-阿里云高性能计算行业实践_18.jpg


何万青介绍了将抢占式实例与断点续算结合,用户只需要花费比传统方式很少的成本,便可以按需得到所需资源。在混合云技术方面,通过混合云异步文件存储的方式,可以实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,已经得到广泛使用。

image.gif8-南坡VS北坡-阿里云高性能计算行业实践_20.jpg

9-业务场景.jpg


E-HPC商业License方案中,可通过阿里云高速通道打通云上云下网络。其中,E-HPC自动部署云上计算资源,并为其配置好License服务或License代理节点,云下License服务器通过VPN连接License代理节点,E-HPC服务负责License Manager部署、License发放和使用监控。

10-南坡VS北坡-阿里云高性能计算行业实践_21.jpg


点击这里,查看更多弹性高性能计算E-HPC产品信息。


相关文章
|
15天前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
1月前
|
存储 监控 安全
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
为了提供更好的日志数据服务,360 企业安全浏览器设计了统一运维管理平台,并引入 Apache Doris 替代了 Elasticsearch,实现日志检索与报表分析架构的统一,同时依赖 Doris 优异性能,聚合分析效率呈数量级提升、存储成本下降 60%....为日志数据的可视化和价值发挥提供了坚实的基础。
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
|
2月前
|
安全 机器人 数据安全/隐私保护
基于钉钉的阿里云管理实践(四)之续费充值
在阿里云资源的运营过程中,及时续费和充值是保障服务不中断的关键行动。借助钉钉及其集成的阿里云管理功能,用户可以方便地接收到续费通知,并完成充值过程。本教程将为您详细介绍从收到续费提醒信息到完成充值的全过程。
|
1月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
638 0
|
2月前
|
人工智能 算法 开发工具
Mixtral 8X7B MoE模型在阿里云PAI平台的微调部署实践
Mixtral 8x7B 是Mixtral AI最新发布的大语言模型,是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI,提供了对于 Mixtral 8x7B 模型的全面支持,开发者和企业用户可以基于 PAI-快速开始轻松完成Mixtral 8x7B 模型的微调和部署。
|
2月前
|
弹性计算 运维 监控
基于钉钉的阿里云管理实践(三)之运维管控
随着移动互联网的发展,使用移动设备进行云资源管理变得越来越普及。钉钉作为一款企业沟通和协作工具,其集成的阿里云控制台小程序让用户能够在移动端进行便捷的云资源管理操作。本教程将为您介绍如何在钉钉的阿里云控制台小程序内访问并操作阿里云资源。
104 1
|
7天前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
10天前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
15天前
|
云安全 人工智能 安全
|
16天前
|
弹性计算 算法 应用服务中间件
倚天使用|Nginx性能高27%,性价比1.5倍,基于阿里云倚天ECS的Web server实践
倚天710构建的ECS产品,基于云原生独立物理核、大cache,结合CIPU新架构,倚天ECS在Nginx场景下,具备强大的性能优势。相对典型x86,Http长连接场景性能收益27%,开启gzip压缩时性能收益达到74%。 同时阿里云G8y实例售价比G7实例低23%,是Web Server最佳选择。

相关产品

  • 云服务器 ECS
  • 轻量应用服务器
  • 弹性容器实例