阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合

简介: 与AI相结合,高性能计算能够帮助科研人员将精力集中于专业领域。

摘要:2022年8月5日,2022阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,阿里云高性能计算负责人何万青博士,带来了题为《阿里云大计算加速HPC与AI融合》的分享,以下是他的演讲内容整理,供大家阅览:

图片1.jpg

阿里云高性能计算负责人  何万青


人类历史上各种广谱药的发现,是一个漫长且靠运气的过程。新药的发现和制造往往需要十多年的时间,每年 FDA 能够批准上市的新药少之又少。

图片2.png


而新冠的爆发带来了一个重要契机,我们通过整合云上计算资源,第一时间帮到科研机构开展新冠研究,从而发现了云计算具备的独特优势。据报道,世界上前 20 大药厂 70% 的算力和研发都在往云上迁移。

图片3.png


在新冠疫情爆发初期,阿里云第一时间免费开放AI算力支持抗疫研发,支持科研人员围绕新冠病毒进行药物研究;其次,通过大数据进行公共医疗政策的研究,助力大数据系统、追踪系统以及决策系统;另外,向全世界开放阿里的科研抗疫平台,对接了来自 50个国家&地区的33个需求。


而这个契机也让我们意识到,AI是一种即将爆发的新的IT技术、新的计算平台

图片4.png


过去,高性能计算支持生命科学的发展,主要着力于科研和科研团队的培养,但并不明确会导向何种药物、何种结果。而现如今,此类需求非常明显,我们面对大量的数据库和化合物,需要对疾病和样本做分析、基因测序。


过去的应用分为两大类:第一类是基于第一性原理的分子动力学、量子色动力学等,比如分析细胞组成的分子之间的作用力、化合物之间的作用;第二类是面向精准治疗时的基因测序,同样需要非常大的算力,科学家需要解决的是机理和算法问题,但大规模的实现需要工程人员来解决,比如高通量测序。


最近几年发展最快的是 AI 算法,通过AI对大量数据进行筛查。而此过程需要解决的问题有:如何将AI算法和技术放在云超算平台上?大量的数据如何在云上进行传输?


总结来说,高性能计算在云上进行服务,需要解决以下线下超算的痛点:

图片5.png

① 弹性扩展难:实际业务中,往往难以预测突发情况的需求,因此,弹性伸缩十分必要。


② 可靠性不高:计算中心或物理集群规模扩大之后,无法保证百分百的稳定性,因此必然会出现重新计算的需求,针对此需求,云计算稳定的SLA之外,还实现了断点续算技术。


③ 性能瓶颈:云上计算突破了海量数据进行机器学习或筛查的 GPU 瓶颈,过去花费数周数月才能够完成的计算,如今可缩短为几天。


④ 成本挑战:过去,成本和算力难以兼得,自建超算中心往往 CAPEX不低,且后续运维成本OPEX更大,难以实现。

图片6.png


借助云平台,科学家和科研人员能够专心于自己专业内的工作,聚焦于应用。而应用这一层,科研人员将它作为软件放至云上,让更多的科研人员实现科研合作和服务共享。


阿里云最基本的能力是提供弹性的伸缩算力,在此之上,高性能计算最核心的部分是与伸缩算力耦合的并行作业调度,还需要支持 AI Framework。用户如果有自己的计算资源,可以通过混合调度在云上利用原有的计算资源。大部分科研人员对本地环境最熟悉,需要将它们的能力迁移至云上。此外,生命科学领域非常依赖于全世界的NH数据库,且需要高速互联,也可以通过阿里云的高速来实现。


HPC 应用是 Data go to compute,但 AI 是分布式、数量极大的compute go to data计算模式,有自己的生态,如何对两者进行结合?中国的软件公司依然不够发达,新产品、新发现难以在短时间内为人所知,受限于盗版问题和推广问题。但在云上可以实现 SaaS 化,通过 OpenAPI 将产品变为云上的服务。

图片7.png


高性能计算里有两个很大的领域需要无限的算力,分别是地球物理和气象和生命科学。这就需要基于神龙的弹性裸金属超级计算集群SCC来提供了低延迟网络和并行文件系统的高性能集群

图片8.png


通过高性能计算推动实现了阿里云CPFS并行文件系统,提供了除了云上大数据类型的 HDFS 分布式存储,能够实现了大批量并行吞吐的需求。

图片9.png


通过阿里提供的“无影”,可以访问任何端和云上的计算资源,包括但不限于PC、手机、屏幕等,可以将公共云的操作、应用入口以及背后的集群资源管理整合在一处。一方面可以作为虚拟的桌面,另一方面也可以作为应用入口。

图片10.png


我们打通了云上云下,云下可以通过专线连至云上,头节点在线下,然后在云上安装E-HPC agent即可通过 job scheduler 调度资源。大部分情况下,任务数据需要进行两边的传输,因此可以充分利用线上线下的高峰低谷。此外,NAS异步存储的数据可以在作业执行时从线下拉取,这在高通量计算场景下非常必要。

图片11.png


另外,也可以将计算的管理埋在头节点,即使用 E-HPC 作为管控,自己的管控通过在云下接收 agent 进行计算来实现。

图片12.png


E-HPC+AI是当前的热门趋势。各种 AI framework 最初的目的不是为了解决科学机理性的问题,而是为了解决搜索、推广、广告等与群体思维有关但缺乏机理模型的问题。而如今,我们将高性能计算容器做成镜像,在部署和计算过程中快速展开,使其也能用于科学研究,比如在拥有大量数据的情况下,将人的经验作为模型注入AI,然后通过机器将问题空间降低。

图片13.png


此外,为了方便科研人员的使用,我们增加了E-HPC用户入口。整个开发和业务流程都可以从用户视角进行查看。

图片14.png


平台集成了众多可视化软件,科研人员可以通过客户端(无影+Win&Mac)直接进入,底层提供了所有服务。

图片15.png


无影是软件定义的云原生电脑,相当于一个入口,它可以是任何设备或屏幕。云上数据中心的规模远小于端的规模,而端侧受限于 CPU 的能力往往无法实现太多能力。但是如果通过 VID 或自己的协议,能够将云上的可视化部分利用起来,则可以实现非常多的访问。

图片16.png


过去传统的计算结构的交互为显示器、键盘鼠标、打印机等与一台计算存储网络。而未来,只需要通过无影,它可能是一个盒子,可能是一个电脑上的应用入口,即可访问所有云上的可视化软件以及计算资源。无影很可能成为将来元宇宙的入口,因为所有 GPU、DPU、XPU 将来都是通过服务的模式进入数字世界。


此外,用户完全可以控制信息不被泄露。过去,我们通过一台全功能的机器上网,病毒可以通过机器入侵电脑。而无影可以配置为是单向的,避免了病毒入侵。

图片17.png


无影可以作为云产品放在任何机器上,比如过时的手机,随时随地用云电脑办公。

图片18.png


如今很多科研产品是软件,需要更多地服务广大科研工作者。而在自己的机器安装和使用,运维和 OPEX 都非常高,也难以调用更多资源。


因此,我们推出了计算巢,可以通过它快速将云计算本身的运维、资源调度、资源计费等所有资源管理透明地开放给用户,用户只需考虑安装类工作,剩下的都可以交由计算巢来完成。

图片19.png


阿里云今天发布生命科学行业云上解决方案与最佳实践白皮书,主要包含三部分:云能解决生命科学领域的哪些问题、五大解决方案以及三大最佳实践。高性能计算本质上希望能够帮助科研人员将精力集中于专业领域,而无需耗费精力在处理器结构等非专业领域的问题上。

图片20.png


E-HPC与MemVerge的集成解决方案主要助力于HPC基因测序及芯片设计大内存算例的性能优化,可以将常规内存与持久性内存全部虚拟化成一个大池,根据具体需求进行伸缩。

图片21.png


GHDDI在新冠期间研发作业量大增,面临资源紧急需求,需要快速启用一批计算资源支撑新冠病毒分析、病理分析等业务,同时GHDDI是一家全球化的研究机构,需要打通国内海外数据,完成全球合作研究。比如会有 web service ,需要通过 OSS 将数据拉上来,另外需要能够实现异步的数据拉取以及异步缓存。


我们为其提供的解决方案如下:


◾ 利用AutoDock Vina / NAMD / AI技术通过docking和分子动力学模拟进行药物筛选,并将计算成果直接通过阿里云对外公布和共享;

◾ E-HPC:创建HPC 应用运行环境;

◾ NAS:提供数据存储;

◾ ECS/EGS:提供计算能力 & wiki 服务;

◾ 8台 8卡 A100 算力支撑;

◾ OSS+EIP:计算成果存储和对外共享。

图片22.png


药物研究企业的需求往往是低成本、弹性伸缩,能够很清楚地跟踪每一个 workload 。我们针对某药企的需求,开发了抢占式实例,抢占到实例后存在限定的时间,超时后不做任何清理则对资源进行释放,极大降低了成本。


逆转录的研究需要将数据库与海外的数据库通过阿里的高速网络打通,实现异步复制和高通量的计算。

图片23.png


通过多CPU并行利用AlphaFold2可以预测单链结构模板。我们希望能够在云上开放AlphaFold2服务,为院校的日常课程、培训提供更大的支持。

图片24.png


科研类单位、制药企业的业务存在极大的随机性,因此对于资源的利用率需要更精细化的管理。


阿里云高性能计算的目标是为科研行业提供更高的算力和更高的资源利用率,服务更多科研人员,让科学家们将更多的精力投入于专业领域当中,为科研行业助力!


点击这里,观看嘉宾在本次峰会的精彩演讲视频  。


相关文章
|
8月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
3965 166
|
8月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
8月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
1368 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
8月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
8月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
2126 83
|
9月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1669 89
|
8月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
827 30
|
8月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
845 2
|
8月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
8月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
519 3

热门文章

最新文章