阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

简介: 在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。


阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人吴结生在第20届CCF全国高性能计算学术年会(CCF HPC China 2024)期间谈到,如今数据已成为企业不可或缺的资产,而随着人工智能技术的不断进步,云计算与AI的结合正迅速成为企业发展的新趋势。不久的将来,每家企业都将转型为“数据+ AI”的新型公司。云计算持续遵循着Scaling Law,能够提供大规模、可扩展的计算能力和存储能力,以适应企业业务和AI模型的不断扩展需求。通过云计算,企业能够加速采用人工智能技术,推动智能化创新的实现。


多元化负载驱动高性能计算创新


当前高性能计算领域正面临着日益多元化的工作负载需求。从基础模型的训练、自动驾驶,到生命科学、工业制造和半导体芯片等前沿领域,高性能计算的应用场景不断拓展,负载特性也日趋复杂。





“这种多元化的负载需求,对高性能计算提出了全新的挑战。”吴结生表示,“我们需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。”


根据算力耦合度和数据密集度,吴结生将高性能计算负载大致分为极致耦合型、紧耦合型和松耦合型。


针对多样化的负载需求,阿里云构建了完整的高性能计算基础设施,通过相应的产品来满足不同类型的HPC负载的需求。“灵骏智算服务满足极致紧耦合的HPC负载需求。典型的代表就是大模型的训练;E-HPC高性能计算,支持紧耦合的HPC负载;E-HPC Instant计算服务,支持松耦合的HPC负载。”





弹性能力与阿里云CIPU引领“数据+AI”时代



在谈到Cloud HPC(云上高性能计算)与传统HPC的区别时,吴结生强调了弹性能力的重要性。


“Cloud HPC的最大优势在于其弹性能力。”他表示,“通过云上的资源池和弹性调度技术,我们可以根据客户的需求快速创建和释放计算资源,实现计算能力的按需分配。这种弹性能力不仅提高了资源利用率,还降低了客户的成本。”


此外,Cloud HPC还具备对异构计算的兼容性和快速部署的能力。吴结生指出,随着AI技术的不断发展,异构计算已经成为高性能计算的重要组成部分。阿里云通过提供对GPU、FPGA等异构计算资源的支持,以及一键部署、自动化管理等便捷功能,为客户提供了更加灵活和高效的高性能计算解决方案。


他进一步强调,Cloud HPC的优势不仅在于其技术能力,更在于其能够与客户的业务流程紧密结合,提供端到端的整体解决方案。通过弹性高性能计算平台E-HPC,整合计算、存储、网络和安全等方面的能力,阿里云帮助客户实现了业务流程的优化和效率的提升。


在采访过程中,吴结生还多次提到了阿里云自研的CIPU(云基础设施处理器)的价值。他进一步指出,通过整合CPU、GPU和加速卡的能力,CIPU架构为阿里云提供了强大的差异化竞争力。无论是在大数据处理、高性能计算还是AI训练等领域,CIPU架构都发挥了重要作用。“我们从2017年开始,一直致力于 CIPU 的创新和演进。最近我们发布了 CIPU 2.0,在安全、稳定性、性能等方面得到全面的升级。”吴结生进一步分享道。CIPU 2.0 支持更高性能的弹性 RDMA,进一步加强了 E-HPC 使用弹性 RDMA 支持 HPC 负载的能力。



智算为基,阿里云助力多行业驶向数据+AI的“高速路”



写一篇旅行攻略需要筛选目的地、预订交通住宿、规划行程等,耗时又费力。用户使用AI大模型时,只需要简单的“帮我写一篇去**的旅行攻略”提示词,几秒内就可以生成一篇详细的旅行规划。写宣传文案、写论文、做会议总结,做各类图像和视频内容等,在AI浪潮下,各类大模型应用产品将很快成为许多人工作生活的“标配”。


但是在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。事实上,大模型的预训练过程依赖于集群化架构,需要构建包含成千上万张加速计算GPU卡的大型集群。这个集群本身就像一个巨大的整体,任何单个节点的故障都可能导致整个训练过程的暂停。吴结生比喻说,训练大模型类似于一群人两两绑腿一起行进,这种并行协作的方式一旦有成员反应迟缓或跌倒,整个团队的前进就可能受阻。


“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率,这也是阿里云与头部大模型客户共同在推进的一个重要方向”吴结生说道。


月之暗面作为一家创业型的大模型与AI应用公司,凭借其独特的Kimi智能助手APP迅速崭露头角。这背后离不开阿里云强大的计算平台支持。月之暗面的大模型训练与AI应用扩展,对于计算性能、稳定性以及效益都有着极高的要求。阿里云为月之暗面提供了一个大规模、高性能且稳定的智算平台,确保了大模型训练的顺利进行。同时,阿里云还通过优化资源配置与调度,为月之暗面提供了高性价比的解决方案,助力其在激烈的市场竞争中脱颖而出。


在汽车制造业,“卷”价格、“卷”技术已经不是新鲜事,车企们不断推陈出新,不仅要在续航里程、充电速度等硬指标上领先,还要在驾驶体验、个性化服务等方面赢得用户的心,这些都离不开汽车厂商在研发效率上的提升。


以汽车厂商为例,阿里云通过其弹性高性能计算(E-HPC)服务,为汽车厂商提供了一个全流程的仿真计算解决方案。在这个平台上,工程师们可以高效地进行汽车设计、模拟测试与优化改进等工作。“得益于阿里云的高性能计算、网络与存储技术,仿真计算的效率得到了显著提升,达到了25%的增长。这不仅帮助汽车厂商实现了研发目标,还为其节省了大量的研发费用。”吴结生说道。


在生命科学领域,药物计算过程波峰算力需求大、平均算力与波峰之间相差悬殊等问题一直是制约新药研发效率的关键因素。阿里云通过E-HPC Instant产品智能调度全局资源,望石智慧的科学家们可以灵活申请所需的算力资源,进行大规模的药物计算与模拟实验。吴结生补充称,“得益于阿里云的海量的计算资源,药物计算的效率得到了显著提升,同时成本也降低到了原来的三分之一。不仅加速了新药研发的进程,也为望石智慧在激烈的市场竞争中赢得了宝贵的先机。”


进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力。我们期待看到,阿里云作为云计算行业的引领者,与基础模型、智能驾驶、生命科学、能源、制造等行业玩家共同携手,持续带来更多产业应用的发展。


本文首发于环球网,作者|林梦雪

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
32 6
|
2天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
|
2天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
6天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
6天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
3天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
70 48
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
3天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
40 11
|
1天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用及其未来趋势
【10月更文挑战第34天】随着人工智能技术的飞速发展,其在医疗领域的应用也日益广泛。本文将探讨AI技术在医疗诊断中的具体应用案例,分析其对提升诊断效率和准确性的积极影响,并预测未来AI在医疗诊断中的发展趋势。通过实际代码示例,我们将深入了解AI如何帮助医生进行更精准的诊断。

热门文章

最新文章

下一篇
无影云桌面