引言:本文整理自阿里云弹性计算产品线、存储产品线产品负责人陈起鲲(Alex Chen)在2024云栖大会「弹性计算专场-普惠计算服务,助力企业创新」中的分享。在演讲中,他分享了阿里云弹性计算,如何帮助千行百业的客户在多样化的业务环境和不同的计算能力需求下,实现了成本降低和效率提升的实际案例。同时,基于全面升级的CIPU2.0技术,弹性计算全线产品的性能、稳定性等关键指标得到了全面升级。此外,他还宣布了弹性计算包括:通用计算、加速计算和容器计算的全新产品家族,旨在加速AI与云计算的融合,推动客户的业务创新。
图:阿里云智能集团弹性计算产品线、存储产品线产品负责人 陈起鲲(Alex Chen)
以下为演讲内容摘要:
Alex Chen:阿里云弹性计算已经帮助千行百业的客户成功实现上云,如今在阿里云上有超过500万的客户数,在各行各业的不同场景及不同算力需求中,阿里云提供了丰富且能够为场景极致优化的算力服务。
场景应用:为千行百业提供澎湃算力,创新动力
作为国内头部社交媒体平台,微博直播的视频业务对算力需求一直较高,同时对于成本的诉求也十分强烈;通过自研的倚天实例,能够为客户提供高负荷降频能力,降低微博单路直播成本接近2/3。
在直播转码场景下,作为一家以内容能力与科技能力为基础的公司,好未来也需要更多的弹性伸缩能力。结合倚天算力,我们为好未来提供弹性伸缩ESS,根据API调用,能够无缝扩展倚天实例,更好的帮助好未来应对业务场景中出现的波峰波谷,综合性价比提升50%。
在过去1-2年的业务实践中,我们在直播转码和大数据分析上都得到了规模化的验证,很多大客户已经在自身生产环境下大量使用倚天实例。倚天实例的商业化规模已经超过百万核数,同时阿里云自己的PaaS平台,如数据库业务,也在规模化地使用倚天实例。
游戏场景下,可以看到阿里云八代Intel实例的表现相对较为突出。网易的《永劫无间》游戏在全球拥有接近4000万的玩家用户,同时在线畅玩的用户也超过百万级,这也代表着整个游戏需要低延迟、高并发的算力供给。通过阿里云八代Intel实例和ACK One的结合,为玩家提供了丝滑的游戏体验,同时平均延迟降低了20%。
目前市面上很多游戏厂商已经开始向容器化的方向探索,今年新增的接近60%以上的vCPU规模都是以容器为主体开出并承载的,所以容器是一个十分重要的创新业务技术载体。莉莉丝团队在早期就选择了容器部署自身的游戏服务,如《剑与家园》等,因为容器能够为其带来平滑部署编排和自愈能力;并通过ACK和OKG的组合调用,再通过容器部署其游戏,实现对资源的降本增效、弹性伸缩。
去年我们发布了u实例、e实例等经济型企业级实例。易点天下是阿里云重要的客户之一,它在部署国际化智能营销服务的出海业务中,每天新增业务数据量高达20TB,平均每天在全球200多国家收到1000亿次广告投放流量的请求。通过u实例、e实例,易点天下在极低成本情况下支撑起弹性和波峰波谷的业务需求,由此可见u实例、e实例已经在搜推广业务场景中得到了大规模可用性验证。
依然聚焦搜推广业务,可以看到小红书已经把它的搜推广业务迁到了阿里云上,在云上构建亚洲乃至目前世界上最大的数据库架构。如果小红书完成了架构上的存算分离,则可以在计算上选择最优最先进的算力搭配容器,并实现高性能的推荐系统。同时使用容器在实例上做混部和装箱,这样能够把离线业务和在线业务放在一起,大幅提升CPU利用率,也大幅利用了AMD提供的高密度和高强劲算力,帮助其整个业务降本增效。
上图提到的客户业务集中在大数据搜索,我们看大数据需求,当其存算分离后,有一种类型的数据比较有挑战,就是临时数据场景。以往客户场景出现此类问题,往往选择部署本地盘实例,而本地盘带来的问题就是它和某一种算力是紧耦合的,且它的库存也是有限的,有可能客户需要运维的数据只有几百M,却不得不选择4T/8T的SSD盘。
为了解决这个方面的问题,我们在去年推出了弹性临时盘的产品能力,能够随意和倚天、AMD、Intel等实例进行挂载,同时弹性临时盘可以最小起步64GB的SSD空间,用户可以自动扩需,根据需求在线扩容到TB级别。以上的弹性临时盘+随意算力的完美组合,就可以完美解决消费电子大数据业务中对于临时数据处理的需求。
东方物探的业务覆盖全球,我们也为其提供了在全球随意组合算力资源的服务,同时还可以将丰富的算力和存储做结合,按照E-HPC编排其业务,弹性使用算力资源和云计算能力。阿里云也为其提供了简单易用、弹性高性能和稳定可靠的云服务,通过E-HPC+云的产品能力,我们对复杂业务像地震波处理等也做到了高效支撑。
望石智慧是一家制药公司,按需调度大规模CPU及峰值压力承载、高通量计算资源紧缺是其主要业务痛点。E-HPC Instant计算服务帮助望石智慧随时弹出10万核及以上的算力,大幅度提高它的新药研发效率。很多类似的业务,包括EDA等场景,都需要弹性算力,所以E-HPC上云对客户来说,弹性算力也是提高业务效率的一大利器。
在传统业务中的核心OLTP交易类型场景上,大家会选择在传统IDC架构上实现双活,但其实我们很多客户已经在云上实现数据库双活。上图展示的客户,我们为其提供了云盘的共享能力和IO fancy能力,同时挂载多个ECS,为客户业务提供高可用性算力,在云上也可以实现低成本、高可用架构,完美支撑OLTP能力。同时以上实例还可自由选型,包括云盘也可以根据客户业务需求自动弹性伸缩,性能在线扩容,在不改任何应用的情况下就可以自动响应OLTP性能的波峰波谷。
今年的大会上,大家可能听到最多的一个词就是“AI大模型”。AI也分很多种,在大模型还没有火之前,阿里云已经支持了很多自动驾驶的客户。跟大模型类似并相关的就是GPU,GPU是一个非常昂贵且稀缺的资源。所以有些时候客户的自动驾驶分析及研发和算力需要在线下,但其也无法无限扩容线下GPU集群,尤其当自动驾驶和大模型结合之后,客户就需要和云上的算力做协同。
云盒也就在这样的需求下应需而生,云盒既能够把本地算力支撑起来,把本地生产研发环境升级,又可以和公共云所有资源做互联,通过线下和公共云融合,能够帮助客户支撑起数据采集、仿真数据处理、基础模型训练和更多复杂的训推业务,从而帮助客户降本增效。
在刚刚过去的巴黎奥运会上,云计算首次代替卫星转播,作为主流转播载体,我们也在奥运会进行期间看到了很多高清的“子弹时刻”,观众可以360度无死角观察赛程状况和画面。实时画面的定格实现就是需要将采集的数据渲染出来,通过ACK pro,能够实现在线编批,灵活地把3D画面渲染起来,为客户提供丝滑的视觉体验。
大模型训练对于底层AI算力本质上提出了一些不一样的需求,因为其业务是多个GPU、多卡多机同时协作跑任务,如果其中一个任务出现问题,那么其他GPU跑的任务都等于浪费或空转,所以要不断地把跑出来的数据写到对应的存储层保存下来。通过ACK和灵骏的支持,帮助月之暗面kimi智能助手提高在线训练有效率达99%,降低CPU空闲率低至0.5%,真正充分使用了比较昂贵的GPU万卡集群。
在推理方面,未来我们会看到越来越多的多卡推理需求,当然我们也提供了完美的解决方案。比如海艺AI使用不一样的模型做推理,我们通过容器提供了一整套完整解决方案。通过Fluid缓存加载相对比较热的模型到GPU中,帮助客户低延迟实现AI绘图,将每张图出图的平均时长降低到8-10秒,整个弹性伸缩能力也实现大幅度提升。
产品升级:性能、稳定性、用户体验的极致优化
首先为大家介绍的是CIPU 2.0的发布,2.0能够更高效地传输海量数据、降低延迟、增加并发。这个技术的关键点在于今天我们观察到,处在AI和数据驱动的时代,数据高效传输至关重要,通过CIPU 2.0的技术,能够提升所有数据中心的升级和产品演进。
基于CIPU 2.0,我们会发布一系列包括Intel和AMD在内最新的芯片能力的算力,达到和CIPU的完美组合。我们所提高的不只是算力本身,还有支撑的存储和网络性能,同时也加固了端到端的VPC加密能力,确保了客户数据的安全性。今年我们还观测到,在我们换代升级时,对价格上的策略也发生了本质的变化。我们的八代接近了更低价格,真正做到把云上的技术红利释放给客户,目的在用户选择阿里云时,就为用户铺好一条正确的技术和产品演进路线。
在全面升级的同时,我们也平衡了端到端的优化工作,在过去的一年中,我们在倚天实例上做了很多软件层软硬一体的升级。通过软硬一体优化,可以看到在视频转码场景下,不增加成本的同时为客户业务提高30%的性能。
上文提到的60%以上的创新业务和新的vCPU规模,也都是由容器这样的载体去提供的,所以我们在去年就发布了ACS这款产品。它不需要基于虚拟化这层技术,直接就可以跑在安全容器上,目前这个产品今年已经商业化。简单介绍它的起步的规模可能只有0.1vCPU,客户可以细颗粒度的说明所需要的算力,同时它的存储起步就只有一个GiB,所以客户可以非常细颗粒度的去表明业务量,根据业务量进行随意搭配,也非常契合客户可能在某一天一定周期的波峰波谷的需求。
智能计算灵骏也做到了大幅提升,包括支持10万张卡、通过后台主动对GPU进行周期性巡检、发现故障自动隔离自愈、全新HPN7.0单层支持千卡、双层支持万卡、大幅度优化集合通讯、多GPU同时访问一份文件等,结合了所有存储计算网络,能够支持连续训练有效时长达99%。
在保证性能和场景优化的同时,我们还需要关注产品的客户体验。今天在阿里云上已经有超过500万的客户,拥有几百万核使用的客户和拥有5台、10台ECS的客户,在管理产品和使用ECS体验的需求肯定是不同的。为了方便客户对资源的便捷可观测性以及快速排查能力,我们发布了ECS Lens。基于ECS Lens,我们也会不断迭代基础设施的可观测性能力,帮助客户通过多个维度监控其对资源的使用,甚至提升到安全能力防护等规划。如出现故障,可以快速帮助客户使用资源进行定位。
同样我们也花了很多精力在简化ECS控制面板上,为了给用户提供更好的丝滑体验。我们关注到如果是小于10台的ECS用户,将不需要全部控制台组件,只需要保留高频使用的组件功能,就可以完成每天90%以上的内容动作,所以我们持续进行迭代,真正做到为客户创造价值。
处在AI时代,阿里云也是AI的使用者。通过AI,我们助力大中小客户更好的用云,更好的用ECS。如果在ECS的产品使用过程中出现问题,都可以通过弹性计算AI助手去答复和查询。
全新弹性计算产品家族发布:加速AI与云融合创新
上图为大家展示的就是最新发布的弹性计算产品家族,可以看到加速计算和容器计算也都加入了进来,在售卖形态、编排调度、迁移、部署、运维上也都有丰富的产品能力,在分布式云中也可以纳管线下集群和资源,实现云上协同。
今天的弹性计算,真正做到了Cloud for AI 和 AI in Cloud,一方面客户可以基于云的产品完成它的AI创新,另一方面阿里云也在用AI提升我们自身的产品能力,优化客户体验,也欢迎大家持续关注阿里云弹性计算,谢谢大家。