阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

简介: 在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

【阅读原文】戳:阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

 

阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人吴结生在第20届CCF全国高性能计算学术年会(CCF HPC China 2024)期间谈到,如今数据已成为企业不可或缺的资产,而随着人工智能技术的不断进步,云计算与AI的结合正迅速成为企业发展的新趋势。不久的将来,每家企业都将转型为“数据+AI”的新型公司。云计算持续遵循着Scaling Law,能够提供大规模、可扩展的计算能力和存储能力,以适应企业业务和AI模型的不断扩展需求。通过云计算,企业能够加速采用人工智能技术,推动智能化创新的实现。

 

 

 

 

多元化负载驱动高性能计算创新

 

 

 

当前高性能计算领域正面临着日益多元化的工作负载需求。从基础模型的训练、自动驾驶,到生命科学、工业制造和半导体芯片等前沿领域,高性能计算的应用场景不断拓展,负载特性也日趋复杂。

 

图丨阿里云智能集团副总裁,弹性计算产品线&存储产品线负责人 吴结生

 

 

“这种多元化的负载需求,对高性能计算提出了全新的挑战。”吴结生表示,“我们需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。”

 

根据算力耦合度和数据密集度,吴结生将高性能计算负载大致分为极致耦合型、紧耦合型和松耦合型。

 

针对多样化的负载需求,阿里云构建了完整的高性能计算基础设施,通过相应的产品来满足不同类型的HPC负载的需求。“灵骏智算服务满足极致紧耦合的HPC负载需求。典型的代表就是大模型的训练;E-HPC高性能计算,支持紧耦合的HPC负载;E-HPC Instant计算服务,支持松耦合的HPC负载。”

 

 

 

 

 

弹性能力与阿里云CIPU引领“数据+AI”时代

 

 

 

在谈到Cloud HPC(云上高性能计算)与传统HPC的区别时,吴结生强调了弹性能力的重要性。

 

“Cloud HPC的最大优势在于其弹性能力。”他表示,“通过云上的资源池和弹性调度技术,我们可以根据客户的需求快速创建和释放计算资源,实现计算能力的按需分配。这种弹性能力不仅提高了资源利用率,还降低了客户的成本。”

 

 

此外,Cloud HPC还具备对异构计算的兼容性和快速部署的能力。吴结生指出,随着AI技术的不断发展,异构计算已经成为高性能计算的重要组成部分。阿里云通过提供对GPU、FPGA等异构计算资源的支持,以及一键部署、自动化管理等便捷功能,为客户提供了更加灵活和高效的高性能计算解决方案。

 

他进一步强调,Cloud HPC的优势不仅在于其技术能力,更在于其能够与客户的业务流程紧密结合,提供端到端的整体解决方案。通过弹性高性能计算平台E-HPC,整合计算、存储、网络和安全等方面的能力,阿里云帮助客户实现了业务流程的优化和效率的提升。

 

在采访过程中,吴结生还多次提到了阿里云自研的CIPU(云基础设施处理器)的价值。他进一步指出,通过整合CPU、GPU和加速卡的能力,CIPU架构为阿里云提供了强大的差异化竞争力。无论是在大数据处理、高性能计算还是AI训练等领域,CIPU架构都发挥了重要作用。“我们从2017年开始,一直致力于CIPU的创新和演进。最近我们发布了CIPU 2.0,在安全、稳定性、性能等方面得到全面的升级。”吴结生进一步分享道CIPU 2.0支持更高性能的弹性RDMA,进一步加强了E-HPC使用弹性RDMA支持HPC负载的能力。

 

 

 

 

智算为基,阿里云助力多行业驶向数据+AI的“高速路”

 

 

 

写一篇旅行攻略需要筛选目的地、预订交通住宿、规划行程等,耗时又费力。用户使用AI大模型时,只需要简单的“帮我写一篇去**的旅行攻略”提示词,几秒内就可以生成一篇详细的旅行规划。写宣传文案、写论文、做会议总结,做各类图像和视频内容等,在AI浪潮下,各类大模型应用产品将很快成为许多人工作生活的“标配”。

 

但是在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。事实上,大模型的预训练过程依赖于集群化架构,需要构建包含成千上万张加速计算GPU卡的大型集群。这个集群本身就像一个巨大的整体,任何单个节点的故障都可能导致整个训练过程的暂停。吴结生比喻说,训练大模型类似于一群人两两绑腿一起行进,这种并行协作的方式一旦有成员反应迟缓或跌倒,整个团队的前进就可能受阻。

 

“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率,这也是阿里云与头部大模型客户共同在推进的一个重要方向。”吴结生说道

 

月之暗面作为一家创业型的大模型与AI应用公司,凭借其独特的Kimi智能助手APP迅速崭露头角。这背后离不开阿里云强大的计算平台支持。月之暗面的大模型训练与AI应用扩展,对于计算性能、稳定性以及效益都有着极高的要求。阿里云为月之暗面提供了一个大规模、高性能且稳定的智算平台,确保了大模型训练的顺利进行。同时,阿里云还通过优化资源配置与调度,为月之暗面提供了高性价比的解决方案,助力其在激烈的市场竞争中脱颖而出。

 

在汽车制造业,“卷”价格、“卷”技术已经不是新鲜事,车企们不断推陈出新,不仅要在续航里程、充电速度等硬指标上领先,还要在驾驶体验、个性化服务等方面赢得用户的心,这些都离不开汽车厂商在研发效率上的提升。

 

以汽车厂商为例,阿里云通过其弹性高性能计算(E-HPC)服务,为汽车厂商提供了一个全流程的仿真计算解决方案。在这个平台上,工程师们可以高效地进行汽车设计、模拟测试与优化改进等工作。“得益于阿里云的高性能计算、网络与存储技术,仿真计算的效率得到了显著提升,达到了25%的增长。这不仅帮助汽车厂商实现了研发目标,还为其节省了大量的研发费用。”吴结生说道。

 

在生命科学领域,药物计算过程波峰算力需求大、平均算力与波峰之间相差悬殊等问题一直是制约新药研发效率的关键因素。阿里云通过E-HPC Instant产品智能调度全局资源,望石智慧的科学家们可以灵活申请所需的算力资源,进行大规模的药物计算与模拟实验。吴结生补充称,“得益于阿里云的海量的计算资源,药物计算的效率得到了显著提升,同时成本也降低到了原来的三分之一。不仅加速了新药研发的进程,也为望石智慧在激烈的市场竞争中赢得了宝贵的先机。”

 

进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力。我们期待看到,阿里云作为云计算行业的引领者,与基础模型、智能驾驶、生命科学、能源、制造等行业玩家共同携手,持续带来更多产业应用的发展。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
13天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
68 12
|
3天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
13天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
69 7
【AI系统】数据并行
|
2天前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
1天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
16天前
|
人工智能 NoSQL MongoDB
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
|
11天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
18天前
|
人工智能 数据可视化 专有云
阿里云飞天企业版获评2024年AI云典型案例
近日,由全球数字经济大会组委会主办、中国信息通信研究院和中国通信企业协会承办的“云·AI·计算国际合作论坛”作为2024全球数字经济大会系列活动之一,在北京举办。论坛以“智启云端,算绘蓝图”为主题,围绕云·AI·计算产业发展、关键技术、最佳实践等展开交流讨论。阿里云飞天企业版异构算力调度平台获评2024年AI云典型案例。
|
23天前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
47 3
|
18天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。

热门文章

最新文章

下一篇
DataWorks