阿里云Alex Chen:普惠计算服务,助力企业创新

简介: 本文整理自阿里云弹性计算产品线、存储产品线产品负责人陈起鲲(Alex Chen)在2024云栖大会「弹性计算专场-普惠计算服务,助力企业创新」中的分享。在演讲中,他分享了阿里云弹性计算,如何帮助千行百业的客户在多样化的业务环境和不同的计算能力需求下,实现了成本降低和效率提升的实际案例。同时,基于全面升级的CIPU2.0技术,弹性计算全线产品的性能、稳定性等关键指标得到了全面升级。此外,他还宣布了弹性计算包括:通用计算、加速计算和容器计算的全新产品家族,旨在加速AI与云计算的融合,推动客户的业务创新。

引言:本文整理自阿里云弹性计算产品线、存储产品线产品负责人陈起鲲(Alex Chen)在2024云栖大会「弹性计算专场-普惠计算服务,助力企业创新」中的分享。在演讲中,他分享了阿里云弹性计算,如何帮助千行百业的客户在多样化的业务环境和不同的计算能力需求下,实现了成本降低和效率提升的实际案例。同时,基于全面升级的CIPU2.0技术,弹性计算全线产品的性能、稳定性等关键指标得到了全面升级。此外,他还宣布了弹性计算包括:通用计算、加速计算和容器计算的全新产品家族,旨在加速AI与云计算的融合,推动客户的业务创新。


图:阿里云智能集团弹性计算产品线、存储产品线产品负责人 陈起鲲(Alex Chen)


以下为演讲内容摘要:



Alex Chen:阿里云弹性计算已经帮助千行百业的客户成功实现上云,如今在阿里云上有超过500万的客户数,在各行各业的不同场景及不同算力需求中,阿里云提供了丰富且能够为场景极致优化的算力服务。


场景应用:为千行百业提供澎湃算力,创新动力



作为国内头部社交媒体平台,微博直播的视频业务对算力需求一直较高,同时对于成本的诉求也十分强烈;通过自研的倚天实例,能够为客户提供高负荷降频能力,降低微博单路直播成本接近2/3。



在直播转码场景下,作为一家以内容能力与科技能力为基础的公司,好未来也需要更多的弹性伸缩能力。结合倚天算力,我们为好未来提供弹性伸缩ESS,根据API调用,能够无缝扩展倚天实例,更好的帮助好未来应对业务场景中出现的波峰波谷,综合性价比提升50%。


在过去1-2年的业务实践中,我们在直播转码和大数据分析上都得到了规模化的验证,很多大客户已经在自身生产环境下大量使用倚天实例。倚天实例的商业化规模已经超过百万核数,同时阿里云自己的PaaS平台,如数据库业务,也在规模化地使用倚天实例。



游戏场景下,可以看到阿里云八代Intel实例的表现相对较为突出。网易的《永劫无间》游戏在全球拥有接近4000万的玩家用户,同时在线畅玩的用户也超过百万级,这也代表着整个游戏需要低延迟、高并发的算力供给。通过阿里云八代Intel实例和ACK One的结合,为玩家提供了丝滑的游戏体验,同时平均延迟降低了20%。



目前市面上很多游戏厂商已经开始向容器化的方向探索,今年新增的接近60%以上的vCPU规模都是以容器为主体开出并承载的,所以容器是一个十分重要的创新业务技术载体。莉莉丝团队在早期就选择了容器部署自身的游戏服务,如《剑与家园》等,因为容器能够为其带来平滑部署编排和自愈能力;并通过ACK和OKG的组合调用,再通过容器部署其游戏,实现对资源的降本增效、弹性伸缩。



去年我们发布了u实例、e实例等经济型企业级实例。易点天下是阿里云重要的客户之一,它在部署国际化智能营销服务的出海业务中,每天新增业务数据量高达20TB,平均每天在全球200多国家收到1000亿次广告投放流量的请求。通过u实例、e实例,易点天下在极低成本情况下支撑起弹性和波峰波谷的业务需求,由此可见u实例、e实例已经在搜推广业务场景中得到了大规模可用性验证。



依然聚焦搜推广业务,可以看到小红书已经把它的搜推广业务迁到了阿里云上,在云上构建亚洲乃至目前世界上最大的数据库架构。如果小红书完成了架构上的存算分离,则可以在计算上选择最优最先进的算力搭配容器,并实现高性能的推荐系统。同时使用容器在实例上做混部和装箱,这样能够把离线业务和在线业务放在一起,大幅提升CPU利用率,也大幅利用了AMD提供的高密度和高强劲算力,帮助其整个业务降本增效。



上图提到的客户业务集中在大数据搜索,我们看大数据需求,当其存算分离后,有一种类型的数据比较有挑战,就是临时数据场景。以往客户场景出现此类问题,往往选择部署本地盘实例,而本地盘带来的问题就是它和某一种算力是紧耦合的,且它的库存也是有限的,有可能客户需要运维的数据只有几百M,却不得不选择4T/8T的SSD盘。


为了解决这个方面的问题,我们在去年推出了弹性临时盘的产品能力,能够随意和倚天、AMD、Intel等实例进行挂载,同时弹性临时盘可以最小起步64GB的SSD空间,用户可以自动扩需,根据需求在线扩容到TB级别。以上的弹性临时盘+随意算力的完美组合,就可以完美解决消费电子大数据业务中对于临时数据处理的需求。



东方物探的业务覆盖全球,我们也为其提供了在全球随意组合算力资源的服务,同时还可以将丰富的算力和存储做结合,按照E-HPC编排其业务,弹性使用算力资源和云计算能力。阿里云也为其提供了简单易用、弹性高性能和稳定可靠的云服务,通过E-HPC+云的产品能力,我们对复杂业务像地震波处理等也做到了高效支撑。



望石智慧是一家制药公司,按需调度大规模CPU及峰值压力承载、高通量计算资源紧缺是其主要业务痛点。E-HPC Instant计算服务帮助望石智慧随时弹出10万核及以上的算力,大幅度提高它的新药研发效率。很多类似的业务,包括EDA等场景,都需要弹性算力,所以E-HPC上云对客户来说,弹性算力也是提高业务效率的一大利器。



在传统业务中的核心OLTP交易类型场景上,大家会选择在传统IDC架构上实现双活,但其实我们很多客户已经在云上实现数据库双活。上图展示的客户,我们为其提供了云盘的共享能力和IO fancy能力,同时挂载多个ECS,为客户业务提供高可用性算力,在云上也可以实现低成本、高可用架构,完美支撑OLTP能力。同时以上实例还可自由选型,包括云盘也可以根据客户业务需求自动弹性伸缩,性能在线扩容,在不改任何应用的情况下就可以自动响应OLTP性能的波峰波谷。


今年的大会上,大家可能听到最多的一个词就是“AI大模型”。AI也分很多种,在大模型还没有火之前,阿里云已经支持了很多自动驾驶的客户。跟大模型类似并相关的就是GPU,GPU是一个非常昂贵且稀缺的资源。所以有些时候客户的自动驾驶分析及研发和算力需要在线下,但其也无法无限扩容线下GPU集群,尤其当自动驾驶和大模型结合之后,客户就需要和云上的算力做协同。



云盒也就在这样的需求下应需而生,云盒既能够把本地算力支撑起来,把本地生产研发环境升级,又可以和公共云所有资源做互联,通过线下和公共云融合,能够帮助客户支撑起数据采集、仿真数据处理、基础模型训练和更多复杂的训推业务,从而帮助客户降本增效。



在刚刚过去的巴黎奥运会上,云计算首次代替卫星转播,作为主流转播载体,我们也在奥运会进行期间看到了很多高清的“子弹时刻”,观众可以360度无死角观察赛程状况和画面。实时画面的定格实现就是需要将采集的数据渲染出来,通过ACK pro,能够实现在线编批,灵活地把3D画面渲染起来,为客户提供丝滑的视觉体验。



大模型训练对于底层AI算力本质上提出了一些不一样的需求,因为其业务是多个GPU、多卡多机同时协作跑任务,如果其中一个任务出现问题,那么其他GPU跑的任务都等于浪费或空转,所以要不断地把跑出来的数据写到对应的存储层保存下来。通过ACK和灵骏的支持,帮助月之暗面kimi智能助手提高在线训练有效率达99%,降低CPU空闲率低至0.5%,真正充分使用了比较昂贵的GPU万卡集群。



在推理方面,未来我们会看到越来越多的多卡推理需求,当然我们也提供了完美的解决方案。比如海艺AI使用不一样的模型做推理,我们通过容器提供了一整套完整解决方案。通过Fluid缓存加载相对比较热的模型到GPU中,帮助客户低延迟实现AI绘图,将每张图出图的平均时长降低到8-10秒,整个弹性伸缩能力也实现大幅度提升。


产品升级:性能、稳定性、用户体验的极致优化



首先为大家介绍的是CIPU 2.0的发布,2.0能够更高效地传输海量数据、降低延迟、增加并发。这个技术的关键点在于今天我们观察到,处在AI和数据驱动的时代,数据高效传输至关重要,通过CIPU 2.0的技术,能够提升所有数据中心的升级和产品演进。



基于CIPU 2.0,我们会发布一系列包括Intel和AMD在内最新的芯片能力的算力,达到和CIPU的完美组合。我们所提高的不只是算力本身,还有支撑的存储和网络性能,同时也加固了端到端的VPC加密能力,确保了客户数据的安全性。今年我们还观测到,在我们换代升级时,对价格上的策略也发生了本质的变化。我们的八代接近了更低价格,真正做到把云上的技术红利释放给客户,目的在用户选择阿里云时,就为用户铺好一条正确的技术和产品演进路线。



在全面升级的同时,我们也平衡了端到端的优化工作,在过去的一年中,我们在倚天实例上做了很多软件层软硬一体的升级。通过软硬一体优化,可以看到在视频转码场景下,不增加成本的同时为客户业务提高30%的性能。



上文提到的60%以上的创新业务和新的vCPU规模,也都是由容器这样的载体去提供的,所以我们在去年就发布了ACS这款产品。它不需要基于虚拟化这层技术,直接就可以跑在安全容器上,目前这个产品今年已经商业化。简单介绍它的起步的规模可能只有0.1vCPU,客户可以细颗粒度的说明所需要的算力,同时它的存储起步就只有一个GiB,所以客户可以非常细颗粒度的去表明业务量,根据业务量进行随意搭配,也非常契合客户可能在某一天一定周期的波峰波谷的需求。



智能计算灵骏也做到了大幅提升,包括支持10万张卡、通过后台主动对GPU进行周期性巡检、发现故障自动隔离自愈、全新HPN7.0单层支持千卡、双层支持万卡、大幅度优化集合通讯、多GPU同时访问一份文件等,结合了所有存储计算网络,能够支持连续训练有效时长达99%。



在保证性能和场景优化的同时,我们还需要关注产品的客户体验。今天在阿里云上已经有超过500万的客户,拥有几百万核使用的客户和拥有5台、10台ECS的客户,在管理产品和使用ECS体验的需求肯定是不同的。为了方便客户对资源的便捷可观测性以及快速排查能力,我们发布了ECS Lens。基于ECS Lens,我们也会不断迭代基础设施的可观测性能力,帮助客户通过多个维度监控其对资源的使用,甚至提升到安全能力防护等规划。如出现故障,可以快速帮助客户使用资源进行定位。



同样我们也花了很多精力在简化ECS控制面板上,为了给用户提供更好的丝滑体验。我们关注到如果是小于10台的ECS用户,将不需要全部控制台组件,只需要保留高频使用的组件功能,就可以完成每天90%以上的内容动作,所以我们持续进行迭代,真正做到为客户创造价值。



处在AI时代,阿里云也是AI的使用者。通过AI,我们助力大中小客户更好的用云,更好的用ECS。如果在ECS的产品使用过程中出现问题,都可以通过弹性计算AI助手去答复和查询。


全新弹性计算产品家族发布:加速AI与云融合创新


上图为大家展示的就是最新发布的弹性计算产品家族,可以看到加速计算和容器计算也都加入了进来,在售卖形态、编排调度、迁移、部署、运维上也都有丰富的产品能力,在分布式云中也可以纳管线下集群和资源,实现云上协同。



今天的弹性计算,真正做到了Cloud for AI 和 AI in Cloud,一方面客户可以基于云的产品完成它的AI创新,另一方面阿里云也在用AI提升我们自身的产品能力,优化客户体验,也欢迎大家持续关注阿里云弹性计算,谢谢大家。

相关文章
|
26天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
3天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
358 14
|
19天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
6天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
21天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
23天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2591 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
5天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
180 2
|
3天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
105 65
|
6天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
330 2
|
23天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1580 17
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码