阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。


阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人吴结生在第20届CCF全国高性能计算学术年会(CCF HPC China 2024)期间谈到,如今数据已成为企业不可或缺的资产,而随着人工智能技术的不断进步,云计算与AI的结合正迅速成为企业发展的新趋势。不久的将来,每家企业都将转型为“数据+ AI”的新型公司。云计算持续遵循着Scaling Law,能够提供大规模、可扩展的计算能力和存储能力,以适应企业业务和AI模型的不断扩展需求。通过云计算,企业能够加速采用人工智能技术,推动智能化创新的实现。


多元化负载驱动高性能计算创新


当前高性能计算领域正面临着日益多元化的工作负载需求。从基础模型的训练、自动驾驶,到生命科学、工业制造和半导体芯片等前沿领域,高性能计算的应用场景不断拓展,负载特性也日趋复杂。





“这种多元化的负载需求,对高性能计算提出了全新的挑战。”吴结生表示,“我们需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。”


根据算力耦合度和数据密集度,吴结生将高性能计算负载大致分为极致耦合型、紧耦合型和松耦合型。


针对多样化的负载需求,阿里云构建了完整的高性能计算基础设施,通过相应的产品来满足不同类型的HPC负载的需求。“灵骏智算服务满足极致紧耦合的HPC负载需求。典型的代表就是大模型的训练;E-HPC高性能计算,支持紧耦合的HPC负载;E-HPC Instant计算服务,支持松耦合的HPC负载。”





弹性能力与阿里云CIPU引领“数据+AI”时代



在谈到Cloud HPC(云上高性能计算)与传统HPC的区别时,吴结生强调了弹性能力的重要性。


“Cloud HPC的最大优势在于其弹性能力。”他表示,“通过云上的资源池和弹性调度技术,我们可以根据客户的需求快速创建和释放计算资源,实现计算能力的按需分配。这种弹性能力不仅提高了资源利用率,还降低了客户的成本。”


此外,Cloud HPC还具备对异构计算的兼容性和快速部署的能力。吴结生指出,随着AI技术的不断发展,异构计算已经成为高性能计算的重要组成部分。阿里云通过提供对GPU、FPGA等异构计算资源的支持,以及一键部署、自动化管理等便捷功能,为客户提供了更加灵活和高效的高性能计算解决方案。


他进一步强调,Cloud HPC的优势不仅在于其技术能力,更在于其能够与客户的业务流程紧密结合,提供端到端的整体解决方案。通过弹性高性能计算平台E-HPC,整合计算、存储、网络和安全等方面的能力,阿里云帮助客户实现了业务流程的优化和效率的提升。


在采访过程中,吴结生还多次提到了阿里云自研的CIPU(云基础设施处理器)的价值。他进一步指出,通过整合CPU、GPU和加速卡的能力,CIPU架构为阿里云提供了强大的差异化竞争力。无论是在大数据处理、高性能计算还是AI训练等领域,CIPU架构都发挥了重要作用。“我们从2017年开始,一直致力于 CIPU 的创新和演进。最近我们发布了 CIPU 2.0,在安全、稳定性、性能等方面得到全面的升级。”吴结生进一步分享道。CIPU 2.0 支持更高性能的弹性 RDMA,进一步加强了 E-HPC 使用弹性 RDMA 支持 HPC 负载的能力。



智算为基,阿里云助力多行业驶向数据+AI的“高速路”



写一篇旅行攻略需要筛选目的地、预订交通住宿、规划行程等,耗时又费力。用户使用AI大模型时,只需要简单的“帮我写一篇去**的旅行攻略”提示词,几秒内就可以生成一篇详细的旅行规划。写宣传文案、写论文、做会议总结,做各类图像和视频内容等,在AI浪潮下,各类大模型应用产品将很快成为许多人工作生活的“标配”。


但是在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。事实上,大模型的预训练过程依赖于集群化架构,需要构建包含成千上万张加速计算GPU卡的大型集群。这个集群本身就像一个巨大的整体,任何单个节点的故障都可能导致整个训练过程的暂停。吴结生比喻说,训练大模型类似于一群人两两绑腿一起行进,这种并行协作的方式一旦有成员反应迟缓或跌倒,整个团队的前进就可能受阻。


“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率,这也是阿里云与头部大模型客户共同在推进的一个重要方向”吴结生说道。


月之暗面作为一家创业型的大模型与AI应用公司,凭借其独特的Kimi智能助手APP迅速崭露头角。这背后离不开阿里云强大的计算平台支持。月之暗面的大模型训练与AI应用扩展,对于计算性能、稳定性以及效益都有着极高的要求。阿里云为月之暗面提供了一个大规模、高性能且稳定的智算平台,确保了大模型训练的顺利进行。同时,阿里云还通过优化资源配置与调度,为月之暗面提供了高性价比的解决方案,助力其在激烈的市场竞争中脱颖而出。


在汽车制造业,“卷”价格、“卷”技术已经不是新鲜事,车企们不断推陈出新,不仅要在续航里程、充电速度等硬指标上领先,还要在驾驶体验、个性化服务等方面赢得用户的心,这些都离不开汽车厂商在研发效率上的提升。


以汽车厂商为例,阿里云通过其弹性高性能计算(E-HPC)服务,为汽车厂商提供了一个全流程的仿真计算解决方案。在这个平台上,工程师们可以高效地进行汽车设计、模拟测试与优化改进等工作。“得益于阿里云的高性能计算、网络与存储技术,仿真计算的效率得到了显著提升,达到了25%的增长。这不仅帮助汽车厂商实现了研发目标,还为其节省了大量的研发费用。”吴结生说道。


在生命科学领域,药物计算过程波峰算力需求大、平均算力与波峰之间相差悬殊等问题一直是制约新药研发效率的关键因素。阿里云通过E-HPC Instant产品智能调度全局资源,望石智慧的科学家们可以灵活申请所需的算力资源,进行大规模的药物计算与模拟实验。吴结生补充称,“得益于阿里云的海量的计算资源,药物计算的效率得到了显著提升,同时成本也降低到了原来的三分之一。不仅加速了新药研发的进程,也为望石智慧在激烈的市场竞争中赢得了宝贵的先机。”


进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力。我们期待看到,阿里云作为云计算行业的引领者,与基础模型、智能驾驶、生命科学、能源、制造等行业玩家共同携手,持续带来更多产业应用的发展。


本文首发于环球网,作者|林梦雪

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
10
9
1
3494
分享
相关文章
阿里云《AI 剧本生成与动画创作》技术解决方案测评
本问是对《AI 剧本生成与动画创作》的用心体验。结论不是特别理想,在实际使用中仍存在一些问题。
71 22
阿里云AI剧本生成与动画创作解决方案深度评测
阿里云AI剧本动画全链路解决方案基于函数计算FC、百炼大模型和ComfyUI技术架构,实现从剧本生成到动画渲染的自动化流程。方案在电商广告、知识科普等快速批产场景表现出色,大幅缩短创作时间(如30秒动画从9.5小时减至16.1分钟)。然而,在强剧情连续性和物理规则方面存在不足,建议结合人工审核优化。测试显示其商用级成熟度,推荐采用“AI初稿-人工润色”模式。
144 95
阿里云AI剧本生成与动画创作解决方案深度评测
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
173 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
AI性能极致体验:通过阿里云平台高效调用满血版DeepSeek-R1模型
DeepSeek是近期热门的开源大语言模型(LLM),以其强大的训练和推理能力备受关注。然而,随着用户需求的增长,其官网在高并发和大数据处理场景下常面临服务不稳定的问题。本文将深度测评通过阿里云平台调用满血版DeepSeek模型(671B),以充分发挥其性能和稳定性。阿里云提供高效、低延迟、大规模并发支持及稳定的云服务保障,并为用户提供100万免费token,简化操作流程,确保企业在AI应用上的高效性和成本效益。尽管如此,DeepSeek API目前不支持联网搜索和图片、文档分析功能,需结合其他工具实现。
821 13
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
90 16
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
阿里云携手DeepSeek,AI应用落地五折起!
近年来,人工智能技术飞速发展,越来越多的企业希望借助AI的力量实现数字化转型,提升效率和竞争力。然而,AI应用的开发和落地并非易事,企业往往面临着技术门槛高、成本投入大、落地效果难以保障等挑战。
35 1
阿里云《AI 剧本生成与动画创作》解决方案深度评测
阿里云《AI 剧本生成与动画创作》解决方案深度评测
39 7
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
206 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
103 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人