带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.5云上高性能计算(二)

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
文件存储 NAS,50GB 3个月
简介: 《弹性计算—无处不在的算力》第三章:计算产品和技术3.5云上高性能计算(二)

3.5.2 适用场景

E-HPC 产品和超级计算集群SCC 提供公共云服务以来,将云原生的弹性、敏捷性、安全性和神龙裸金属具备的强大计算能力相结合,为科研和工业用户提供了将云计算和高性能计算相结合的工业级云超算解决方案,在教育科研、制造业仿真、天体物理、新药研制、影视渲染、材料工程、基因工程、气候气象、石油勘探等行业都有典型应用和广泛应用潜力。同时,对于暂时没有条件将HPC 应用和服务迁移到阿里云公共云的科研和工程客户,阿里云还提供了基于飞天专有云架构的SCC 专有云产品,帮助客户实现线上线下混合云的融合HPC


计算资源存储资源ECS OSS NAS/CPFS 网络安全VPC 云盾 SCC+IB GPU 数据库、大数据、负载均衡… 飞天云操作系统第三方IaaS管理平台虚拟机VM 裸金属服务器IB网络VxLAN 网络快照镜像数据卷

image.png

3-50  SCC 专有云方案

1. 教育科研通用HPC 应用

对于教育科研通用HPC 应用,阿里云通过E-HPC 平台提供了“云上超算中心” 的功能,用户只需一个账号,就可以体验无须排队的快速创建、自动缩扩容和弹性调度的HPC 服务。教育科研通用HPC 应用通常是开源,或者用户自己研发的并行软件, 通过将数据和应用从线下客户端或数据中心上传到云端E-HPC 环境,就可以开展全流程的计算与可视化,这样的通用HPC 计算是通过图3-51 所示的控制流与数据流来实现的,这也是HPC-as-a-Service 的形象写照。

教育科研通用HPC 相对简单,通常由自上而下的应用软件、运行时库、开发环境、中间件和底层操作系统构成。一般工业和其他行业应用环境是一个更为复杂的软件系统,通常由第三方软件服务集成商或者用户开发的业务软件、商用ISV 软件和HPC 平台系统构成。在这种情况下,阿里云会与行业客户一起制订出有针对性的解决方案,阿里云超算提供的Open API 会和第三方软件、软件集成商对接,保证可以将行业业务环境的系统无缝迁移到阿里云超算。

2. 制造业仿真——汽车仿真应用

车企通常会自建或租用超算集群来作为汽车结构、流体和碰撞等仿真的计算资源,随着市场竞争和新车型上市压力的加剧,快速获得规模可变、支持大批量并发

作业的计算集群,成为推动车企使用阿里云超级计算集群SCC 构建公共云仿真平台的最重要原因,而阿里云平台具备的快速扩容能力,长期稳定的主动运维,和车企长时间无故障运行的要求相契合,并显著降低制造业仿真的CAPEX OPEX。上海汽车、吉利集团、东风日产等车企均构建了在阿里云上的SCC 仿真云,基本架构如图3-52 所示。

image.png

3-51  教育科研通用HPC

1.车客户企业网络混合云独立子网数据上传服务器DDC服务器本地图形服务器集群图形服务器集群本地计算集群本地存储服务器阿里云EGS实例HPC集群阿里云SCC实例阿里云SCC实例阿里云SCC实例阿里云NAS文件存储阿里云EGS实例客户终端Web Portal License服务器 AD域服务器 HPC 管高 速 通 道阿里云VPimage.png

C 3.作业可直接提交到阿里云HPC集群4.每日处理数百个碰撞分析、流体分析作业

3-52  汽车仿真云架构


汽车和制造业仿真客户只需在本地集群和阿里云公共云SCC 集群之间部署专线, 就可将仿真任务和数据通过专线传输到阿里云SCC 集群的共享NASCPFS 文件系统,通过HPC 集群上的自动缩扩容实现对所有作业的无阻滞调动,运行结果可以通过云图站、云桌面进行可视化分析,并通过混合云弹性伸缩和作业调度器实现对混合组网状态下的计算和数据调度。

某大型车企的仿真平台使用SCC 集群,碰撞单核计算能力提升了30%,流体单核能力提升了15%17000 核的计算能力带来了22000 核的计算能力。更为重要的是,阿里云后台的主动运维和弹性裸金属的伸缩能力,保证了整个集群以90% 以上的CPU 利用率全速运行。

3. 影视渲染后期全流程

影视渲染属于高性能计算中“Embarrassing Parallel”,即“完美并行”计算类型, 和节点间大量数据通信的MPI 模式不同,它对计算集群的网络延迟要求不高,计算任务是高并发的批量处理,因此各种弹性计算资源均可用于渲染。对影视制作公司而言,后期特效计算量极大,对于计算力的弹性要求很高,本地渲染农场数百台多核服务器在高峰期任务排队严重、低谷期利用率又不高,高峰期必须借助外部渲染农场服务器才能完成渲染任务。而农场服务器性能不高、硬盘寄送方式导致的资产安全性差、技术能力弱、缺乏弹性伸缩等问题让客户非常头痛。

渲染上云超算能够解决客户痛点,采用E-HPC 实现基于deadline 调度引擎和专门为渲染场景设计的混合云NAS 异步文件缓存,实现大批量渲染数据的高效拉取, 并以云图站、云桌面可视化集群和渲染集群打通的云端审片,在某大型影视渲染公司的基于E-HPC 的影视后期制作渲染审片全流程如图3-53 所示,其中关键是要实现图3-54 所示的E-HPC 混合云NAS 异步缓存。

E-HPC 为大并发、多文件、多冗余读取的渲染开发的轻量级异步缓存,不引入额外时间开销,和渲染计算异步进行,线下素材只被拉取一次,有效降低了专线压力,并能够自动感知/ 校验线下素材改动,无须手动同步,客户可直接访问缓存数据,实现透明数据迁移和备份,渲染结果因此可以在云上/ 线下由客户灵活控制。


image.png

3-54  E-HPC 混合云异步缓存128


4. 生命科学药物研发

云上高性能计算为药物研发提供HPC+AI 计算平台,实现云上计算药物研发(CDDD, Computational- Driven-Drug-Design )和人工智能药物研发平台(AIDDD, AI-driven-Drug-Design), 支撑传统高性能计算软件, 如Dock6AutoDock VinaGromacsNAMD 等,以及AI 方案所需的计算需求。在药物筛选阶段,需要在海量的分子库中,筛选有效的先导化合物进行优化和制药,云上高性能计算提供了高通量虚拟筛选计算产品,实现分子筛选任务,在节点间、节点内高并发执行,加速药物研发进程。

此外,云上高性能计算发挥云的优势,第三方药物研究机构可以将自己的研究方案与云超算集成,然后对外直接提供计算服务。例如,在针对COVID-19 的药物研发期间,全球健康药物研发中心(Global Health Drug Discovery Institute, GHDDI)将自己的HPC+AI 解决方案部署到云上超算,对合作伙伴开放,能够让其他研发人员加速药物研发工作。通过全球加速方案,将海外的生物数据直接下载到超算共享目录,让合作伙伴共享使用。同时,GHDDI 将自己的研发结果直接放到对象存储产品OSS 上, 并使用ECS 计算服务器搭建Web 服务器,将OSS 访问链接放在Web 服务器上,供全球科研人员进行浏览、下载。GHDDI 药物研发解决方案如图3-55 所示。


image.png

3-55  GHDDI 药物研发解决方案第3 章 计算产品和技术129


限于篇幅,以上只给出几类典型算例:一类是需要低延迟、高带宽的RoCE 网络的紧耦合通信的工程仿真,使用SCC 集群;一类是松耦合、高并发的批量处理,使用E-HPC 调度ECS 服务器;一类是高并发药物筛选,使用SCC GPU 集群计算与对象存储OSS 提供网页服务。基于高性能计算我们还实施了EDA 半导体仿真、气候模拟、石油勘探、生物制药、基因计算等全流程解决方案。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命?
2023年是人工智能发展的重要转折年,企业正在从业务数字化迈向业务智能化。大模型的突破和生成式人工智能的兴起为企业实现产品和流程的革新提供了先进工具,引领产业迈入智能创新的新阶段。在这个新时代,企业不再仅关注如何增强智能化能力,而更加注重如何利用人工智能实现产品和流程的革新。
1223 0
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
1月前
|
机器学习/深度学习 存储 并行计算
|
8月前
|
存储 人工智能 自然语言处理
高性能计算与多模态处理的探索之旅:英伟达GH200性能优化与GPT-4V的算力加速未来
随着人工智能技术的不断发展,多模态大模型成为越来越重要的发展趋势。GPT-4V(GPT-4 近日开放的视觉模态)大型多模型(LMMs)扩展大型语言模型(LLMs)以增强多感知技能(如视觉理解等)从而实现更强大的通用智能。本文着重对GPT-4V进行深入分析,以进一步深化对LMM的理解。在此本文分析核心是GPT-4V可以执行的任务,同时包含用于探测其能力质量和通用性的测试样本。
|
11月前
|
机器学习/深度学习 弹性计算 编解码
阿里云架构X86计算、ARM计算、GPU、裸金属和超级计算集群介绍
阿里云架构X86计算、ARM计算、GPU、裸金属和超级计算集群介绍,阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
276 0
|
11月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍
阿里云服务器架构x86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍,阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
180 0
|
11月前
|
存储 弹性计算 运维
阿里云弹性裸金属服务器_弹性物理机_高性能计算服务_弹性计算
阿里云弹性裸金属服务器_弹性物理机_高性能计算服务_弹性计算,阿里云弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,原神龙服务器,计算性能与传统物理机无差别,具有安全物理隔离的特点,裸金属服务器分钟级的交付周期
110 0
|
弹性计算 云计算
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC自制脑图
169 1
阿里云产品体系分为6大分类——云计算基础——弹性计算——高性能计算HPC
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器x86、ARM计算、弹性裸金属服务器、超级计算集群实例架构有何不同?
阿里云服务器在架构上有x86计算、ARM 计算架构、异构计算GPU/FPGA/NPU、弹性裸金属服务器(神龙),超级计算集群之分,对于很多新手用户来说,并不清楚这些云服务器实例架构有何不同,不是很了解他们各自有什么特点和适用场景,本文来为大家简单介绍下这些云服务器实例架构的主要特点和适用场景,以供大家参考选择。
616 0
阿里云服务器x86、ARM计算、弹性裸金属服务器、超级计算集群实例架构有何不同?
|
机器学习/深度学习 存储 弹性计算
阿里云服务器x86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍
阿里云服务器在架构上有X86计算、ARM计算、异构计算、弹性裸金属服务器、超级计算集群之分,不同的架构其特点与适用场景也有所不同,本文介绍了这些架构的主要特点和适用场景。
阿里云服务器x86计算、异构计算、弹性裸金属、超级计算集群架构适用场景介绍

热门文章

最新文章