阿里云蒋江伟:什么是云原生芯片?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云蒋江伟:什么是云原生芯片?



蒋江伟

阿里巴巴云原生技术委员会负责人

阿里云高级研究员


最近经常有人问我,在云原生领域开源软件大行其道的今天,云厂商能不能在系统层做一些突破,以深度挖掘技术红利,为客户提供最大化的价值。


我曾在《什么是真正的云原生?》一文中,特别提到:“云原生芯片正呈现一些共有的特性:主频不需要特别高、功耗要特别低、独立运行的核、多核架构能更好地支持服务网格的应用、有成熟的软件生态等等”。


今天,我将尝试从云计算基础设施建设的角度,以应用和需求为出发点,展开讲讲通用计算领域的云原生芯片。云原生芯片因云而生,具有高算力性价比,相对于昂贵的传统服务器芯片是更优选择。




产业需求变革,算力迎来高需求


让我们先回顾云计算产业的需求变化,因为只有业务的变革和挑战才会产生增量,产生机会。


现在经历的产业革命是从移动互联网时代,过渡到人工智能时代。有两个变革值得关注:


第一,从Web向音视频的变革。

在视频为王的今天,企业纷纷推出高质量的内容,如短视频、直播、AI内容生成等,画质越来越高,不断提升用户体验,以此吸引和留住用户。不同于过去PGC时代,对于每天千万级别的UGC视频内容发布平台,每天要将数千万条直播/短视频为代表的UGC内容,发布到互联网,需要数十万台服务器来满足业务需求,需要海量CPU进行视频编解码,相对过去有几个数量级的算力需求


第二,从大数据应用向AI智能决策的变革。

过去的报表时代,企业运营以大数据分析为主,大数据应用服务器部署一度到30%以上,需要的是海量数据处理能力。但今天生成式AI崛起,让更多运营团队看到了智能决策的潜力。数字化运营依赖的工具,也从大数据应用逐步转向大模型,再叠加企业膨胀的数据,对算力提出了更高的要求



业务变革催生技术变革


基于睿频和超线程的CPU架构很好地满足了过去Web场景需求,但视频、大数据、AI时代以计算密集型业务为主,CPU负载往往可以达到80%以上。


传统CPU超线程在高负载情况下,共享ALU、Cache资源,更容易产生争抢排队,吞吐量无法线性提升;同时由于功耗限制,高负载情况下睿频也很难发挥作用


首先,应用场景中视频和大数据负载越来越重,需要独立CPU核,需要的算力也更强,以实现算力换体验,如高清视频;以算力换空间,如降低视频/大数据的存储量和带宽;


其次,云计算与过去数据中心需求也不相同,往往多个租户同时运行在一台服务器的多个虚拟机上,还有多种业务运行在不同容器环境,传统超线程架构很容易产生资源争抢、多线程数据安全问题;


最后,随着IT规模扩大、重算力应用增加,数据中心服务器的功耗和硬件成本攀升。芯片每千瓦功耗带来上万美金的IDC成本,同时服务器芯片的成本也在逐代上涨,服务器需要更低功耗、更高性能、更高算力密度的算力架构


传统技术已经无法满足新型业务的需求,这也为芯片领域的技术创新提供了更多机遇和空间。



云原生芯片因云而生


基于业务变革和技术演进,让我们来总结云原生芯片特点:


第一,支持重算力——高密物理核,数据处理性能更高。相对超线程技术,物理核更能支撑重载应用,避免资源争抢导致性能颠簸;云计算的多租户、离在线混部模式下,减少核间相互干扰;以容器为核心的云原生应用,高密物理核心提供更大调度资源池实现水平扩展;


第二,突破内存墙——大容量Cache,让计算更多时间在Cache中运行,降低访存时间。Cache时延和带宽是内存性能的数十倍,有效缓解数据读取和写入排队,减少时延,提升端到端性能;


第三,提升CPU负载水位当今超线程架构下的CPU,典型负载健康水位30%,安全阈值要限制在50%,超过这个水位,业务时延大幅度增长,吞吐量也无法线性提升。云原生芯片工作负载可以更高,水位浪费可以大幅度减少


第四,减少数据中心算力损耗。谷歌公开的内部统计数据表明,有27%的CPU负载消耗在了数据压缩、Hash、RPC等大量非业务型开销上;云原生架构要能在这些方面进行加速,比如用eRDMA加速RPC、用加速指令加速Zip等;


第五,降低碳排放。传统CPU架构,为兼容历史指令集和老特性,导致包袱重,浪费芯片面积。从物联网和移动市场迭代演进出来的ARM,近几年进入数据中心,凭借低功耗和高密度优点实现节能减碳;


第六,软硬件协同。传统 IT 技术栈遵循的是“计算机科学的任何问题都可以通过增加一个中间层来解决”的理念,产生了逐层抽象、分层解耦的IT架构。有别于传统的计算范式,云计算平台提供了从CPU-->虚拟化-->操作系统-->编译器-->应用的新范式,例如基于阿里云自研的倚天芯片,结合神龙虚拟化技术和龙蜥操作系统和Dragonwell/ACC编译器,最终在Flink流式计算、RDS数据库等应用中实现比传统架构20-50%性能提升。通过云原生软件贯穿前面五项云原生芯片优点,跨层级协同设计与优化,充分释放硬件算力,实现应用加速



云原生芯片的价值


通过解决AI时代用户的痛点,云原生芯片会为云计算带来一系列价值。


首先是节约成本。在视频场景中采用云原生芯片实现用算力换空间,高级算法大幅节约带宽。在大数据场景中,通过云原生芯片的方案,云原生芯片更高吞吐量,更高压缩率减少服务器数量和存储容量;以阿里云ECS为例,采用倚天云原生芯片,可实现相同成本下升级到H265编码,降低30%带宽;



其次是高性能。搭载云原生芯片的云服务器,在视频处理、大数据处理场景下可实现30%以上性能提升,在传统场景如Java、数据库,会带来20-30%性能提升;同样以倚天ECS为例,大数据SQL查询吞吐量提高30%;


再次是业务创新。云原生芯片实现更高码率、帧率,分辨率,体验更好,基于云原生芯片,可以实现大数据更实时的数据分析,减少排队时间;


最后,企业ESG。通过低功耗的云原生服务器,可以大幅度降低企业IT碳排放。



面向未


自研云原生芯片正在成为主要云厂商的选择,比如AWS的Graviton、Azure的Cobalt、阿里云的倚天,设计思路都以高性能、低功耗为原则,面向云原生场景更具成本和性能优势。


我们认为,云计算技术的突破,要面向未来。其形态需要超越传统IT体系,以构建大规模、高性能、高密度、低功耗、低成本的新型基础设施为核心目标。


作为云计算的核心部件,云原生芯片要放下历史包袱,进行跨越式设计,适应算力新范式,成为云计算迈向下一个AI时代的核心驱动力


/ END /


相关阅读

Related reading


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
边缘计算 运维 Cloud Native
浙江省科技进步奖一等奖!阿里云云原生技术实现新突破
科技成果鉴定委员会高度评价该技术,“项目研发难度大,成果创新性强,对促进关键技术进步及自主可控具有重大意义,成果在国内外开源社区产生了广泛影响,并成功应用于互联网、交通、金融、物流、医疗等多个行业。”
|
13天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
13天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
15天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
28天前
|
敏捷开发 Kubernetes Cloud Native
阿里云云原生技术为企业提供了一套高效、灵活的解决方案,支持跨云部署与管理
在多云环境中,阿里云云原生技术为企业提供了一套高效、灵活的解决方案,支持跨云部署与管理。通过容器化、服务网格等技术,实现了应用的一致性与可移植性,简化了多云环境下的资源管理和服务治理,帮助企业应对复杂的云环境挑战,加速数字化转型。
41 5
|
28天前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
36 3
|
1月前
|
边缘计算 运维 Cloud Native
阿里云基于云原生的大规模云边协同关键技术及应用荣获浙江省科学技术进步一等奖
11月22日, 2023年度浙江省科学技术奖获奖成果公布,阿里云与浙江大学、支付宝、谐云科技联合完成的基于云原生的大规模云边协同关键技术及应用获得浙江省科学技术进步一等奖。
|
20天前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
18天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
28天前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
42 3