阿里云张献涛:云原生计算服务,加速互联网迈入智能时代

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 阿里云提供的全方位、立体化的弹性计算服务,可以为互联网企业提供弹性、高性能与成本三方兼顾的云原生基础设施,助力互联网企业快速迈入智能化时代。在阿里云云峰会2023北京站《互娱&游戏创新与商业增长论坛》中,阿里云智能基础产品部副总裁,弹性计算&无影产品线总经理张献涛,发表了《云原生计算基础设施,加速互联网迈入智能时代》的主题演讲。

ChatGPT为代表的AI技术巨大跃升,将掀起一场新的工业革命,重塑甚至颠覆数字内容的生产方式和消费模式。对互联网企业来说,所有的发展方向在探索中,无一例外都会找寻技术上的助推;而新技术和新能力的投入,也会带给互联网企业更多的发展助力。

 

阿里云提供的全方位、立体化的弹性计算服务,可以为互联网企业提供弹性、高性能与成本三方兼顾的云原生基础设施,助力互联网企业快速迈入智能化时代。在阿里云云峰会2023北京站《互娱&游戏创新与商业增长论坛》中,阿里云智能基础产品部副总裁,弹性计算&无影产品线总经理张献涛,发表了《云原生计算基础设施,加速互联网迈入智能时代》的主题演讲。


以下内容根据张献涛的演讲整理而成:旭卿.jpg

阿里云智能基础产品部副总裁,弹性计算&无影产品线总经理 张献涛


幻灯片2.JPG

过去,我们经历了传统互联网和移动互联网,目前我们正处于视频互联网时期,互娱视频领域在过去几年也有着比较大的发展。随着AIGC等技术的出现,我们认为在未来,互联网将迈入以数据为中心的智能互联网时代。

幻灯片3.JPG

而智能互联网时代,将对基础设施提出更高的要求。首先,海量的数据需要高效的算力基础设施进行处理,智能化推荐、大数据挖掘、数据处理效率都需要进一步提升,同时也需要更低延时、更高性能的计算基础设施赋能客户。


其次,“小步快跑,快速试错”是互联网行业一直以来的迭代策略,以便能够快速跟上消费者的需求变化,这需要弹性灵活的基础设施来应对业务需求中出现的波峰波谷,这就带来了第二个问题,如何高效管理基础设施。


最后,智能时代对基础设施提出了更高的要求、基础设施的投入也将持续增长,企业要如何兼顾灵活、敏捷与成本之间的平衡,持续提升基础设施的性价比,这也是一大挑战。

幻灯片4.JPG

阿里云弹性计算构建了面向互联网企业的云技术基础架构,可以完美地满足上述需求。


首先,在底层基础设施IaaS的部分,阿里云飞天操作系统+CIPU,调度着高性能的神龙计算、盘古存储、洛神网络等平台,云原生计算基础设施,极致性能帮助企业打造流畅稳定的用户体验。


针对IaaS的自服务部分,我们的AIACC 加速套件,可以大幅提升大规模分布式训练和推理性能;我们的CloudOps工具,可以更简单的获得高效算力,支撑互联网企业的敏捷开发。AI领域我们发布了AI基础设施加速套件AIACC,实现AI计算效率大幅提升,在推理、训练领域,可以实现比传统IDC高出30%-80%的性能。


在成本管理方面,我们的FinOps体系,通过多种计费模式与场景的组合,同样实现了灵活性与成本的最佳平衡。

幻灯片5.JPG

在底层基础设施层面,阿里云持续进行技术创新,为客户提供流畅稳定的业务体验。


在今年三月,弹性计算第八代企业级实例全面商业化,基于CIPU+飞天的技术架构,全系标配eRDMA能力可以让数据获得更高的流转效率,同时新增了加密虚拟机TDX能力,结合云上安全计算能力和数据计算能力,打造了一个全栈式云原生安全计算服务。


除了性能和安全能力提升之外,网络及存储I/O也实现了大幅提升,存储层面适配NvME云盘存储接口,通过这样的接口可以实现超高性能ESSD支持共享块存储,使得传统软件上云时,可以获得更加极致的性能,同时又可以解决传统软件上云过程中遇到的技术难题。

幻灯片6.JPG

eRDMA是阿里云最新推出的第八代实例标配的产品能力特性,是中国推出的首个云上大规模RDMA加速能力,能够大幅提升大规模分布式计算通信效率,并且能够随着阿里云的集群规模动态扩展,能够轻松构建中国最大的RDMA分布式计算网络,在大规模训练方面,通过eRDMA可以实现上千台机器同时进行训练。


在性能维度,Redis数据库、结合大数据加速套件 MRACCSpark大数据处理、AI训练场景、HPC应用也都分别有着100%25%30%20%的提升。

幻灯片7.JPG

在第八代企业级实例的算力维度,我们为用户提供了丰富的选择,从最新的英特尔第四代至强可扩展处理器、AMD最新的Genoa处理器,到阿里云自研的倚天710处理器,提供了不同架构与场景下的多种选择。


基于英特尔第四代至强可扩展处理器SPR的第八代企业级实例g8i,主要提供了场景化的超高性能,在通用算力提升的基础上,原生支持硬件加速能力,其中AI训练性能提升2倍以上,加解密、压缩/解压缩等场景下性能提升4倍以上,为客户提供场景化的超高性价比。


基于AMD的第八代企业级实例g8ae,算力强劲,单核算力相比上一代提升高达55%,可以满足用户的所有计算机密型业务对更高算力的需求,在实际的高性能计算场景中,相比提升100%


基于AMD的另外一款第八代企业级实例g8a,性价比极高,面向所有通用类应用场景,总和性价比提升15%,在通用企业级应用场景下,性价比提升高达50%以上。


值得一提的是,基于倚天710处理器打造的g8y实例,编解码性能提升了80%,大数据性能也提升了70%

幻灯片8.JPG

倚天710是阿里巴巴第一颗为云而生的自研芯片,在CPU算力层面无超线程概念,用户可享受极致的物理核性能和缓存QoS能力,以充分应对复杂的业务负载变化,CPU利用率即使达到85%以上,也不会出现算力争抢的情况,所以非常适合大数据/数据库类型业务的发展。


不仅如此,业界主流的开源软件以及阿里云主流的PaaS产品均已支持倚天实例,用户无需担心业务适配的问题,零代码改造即可完成业务部署,就可以体验g8y带来的性能收益。

幻灯片9.JPG

除了通用计算方面的能力,面向AIGC大模型的训练与推理方案我们也在构建,在支持GPT模型加上Stable Diffusion大模型训练和推理方面做了全栈优化。在算力资源维度我们有超级计算集群、CPU/GPU集群,存储层面有高性能的并行文件存储,网络层面通过弹性RDMA高速互联,在AI训练和推理方面有着非常优秀的表现。


资源管理层面也有FastGPU等高效部署工具,客户任务可以在阿里云平台上实现高效创建GPU集群,通过ACK容器模式可以形成非常好的弹性,cGPU的技术让GPU算力可以进行切分或池化,根据需要可以虚拟化,也可以进行分布式的大型训练的部署。


同时还支持语言大模型和视觉大模型,阿里云也发布了模型服务,模型服务和整栈软件可以进行无缝对接,在阿里云上使用PaaSIaaS都可以获得比较好的技术支持。

幻灯片10.JPG

阿里云从2017年布局异构计算,2022年重点构建了面向元宇宙XR的应用开发、部署、发布生态;支持合作伙伴演唱会、数字人等场景应用;当前以语言大模型服务为契机,提供面向模型服务的弹性基础设施,从底层到中间件的全系优化,用户可以获得开箱即用的效果。

幻灯片11.JPG

阿里云ECS采用cGPU,支持对多种多卡GPU实现灵活分割,结合CPU VM/容器虚拟化,实现对异构计算灵活切割与调度能力。通过cGPU技术,容器技术等可以在算力切分和池化方面做到无缝效果。

幻灯片12.JPG

虽然AIACC-Training更多是AI通信层面的优化,但结合eRDMA技术可以获得强于传统IDC,强于其他云基础设施的能力。


在目前火热的大模型和AIGC场景上同样提供进一步的优化能力,如在大规模语言模型分布式训练性能提升50%,在AIGC finetune训练性能提升40%,在大语言模型推理性能提升50%,在AIGC推理性能提升80%等,进一步提升客户AI业务的竞争力。

幻灯片13.JPG

我们认为无影是阿里云算力的接入点,在今天无论是通用算力还是智能化算力,都可以通过无影端轻松获得阿里云计算、存储、网络、AI、大数据等整体能力,让智能化算力触手可及。


同时无影兼容大多数的智能显示终端,也让开发和使用体验进一步得到提升。而无影也更容易被各类软件集成,拓宽了应用的业务边界。我们也研发了笔记本,盒式终端,一体机等自有硬件供广大消费者选择。

幻灯片14.JPG

为了让客户在使用云上资源时希望能够更好的管理和运维,过去几年弹性计算产品线一直在构建云上自动化运维体系CloudOps来提升企业的运维效率,旨为云上业务安全高效的持续运营提供全方位的支持。幻灯片16.JPG

在效率至上的互联网时代,CloudOps从成本、效率和稳定性三个维度,为企业带来了显著的效能提升,包括可以实现30%以上的成本优化、50%以上的人工效率提升,以及35%以上的故障恢复周期缩短,为业务稳定永续保驾护航。

幻灯片15.JPG

在之前,大家购买资源更多是为了恒定的业务需求,所以大多使用的是包年包月,但实际云更多时候是需要按量付费的,如何确保整个资源做到合理利用,我们有丰富的计费方式,企业使用云的时候,可以随心所欲,实现成本的下降和资源弹性的双重平衡。

幻灯片16.JPG

我们希望通过全方位、立体化的弹性计算服务能力,为互联网企业提供弹性、高性能与成本三方位兼顾的云原生基础设施,让企业更好地获得弹性高性能低成本的资源,助力互联网企业加速业务创新。


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
7天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
107 2
|
1天前
|
存储 Cloud Native 大数据
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
全面升级为云原生架构,支持云原生按需弹性Serverless能力,解决了长期困扰用户的集群扩展效率和平滑性问题。
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
|
1天前
|
NoSQL 数据管理 MongoDB
数据管理DMS产品使用合集之如何通过阿里云的数据管理服务(DMS)导出MongoDB数据
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
2天前
|
弹性计算 运维 Serverless
Serverless 应用引擎产品使用之在阿里函数计算中,使用阿里云API或SDK从函数计算调用ECS实例的服务如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
22 4
|
2天前
|
运维 NoSQL Java
Serverless 应用引擎产品使用之在函数计算上部署Java服务并访问阿里云MongoDB如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
9 0
|
2天前
|
消息中间件 运维 Serverless
Serverless 应用引擎产品使用之在阿里云函数计算FC中,函数的执行时间是根据实例的存活时间进行计算如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
18 0
|
2天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2天前
|
运维 JavaScript Java
Serverless 应用引擎产品使用之在阿里云函数计算中想为两个不同的服务分别开通自定义域名如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
9 1
|
2天前
|
运维 Serverless Go
Serverless 应用引擎产品使用之在阿里云函数计算中,Go语言的函数计算服务Go程序没有正确打包如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
7 0
|
2天前
|
运维 Serverless 数据处理
Serverless 应用引擎产品使用之阿里云函数计算中的应用、服务及函数之间的关系如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
10 0

热门文章

最新文章