开发者社区> 凌云Cloud> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云CIPU,是一场冒险的探索

简介: CIPU 的缘起及未来
+关注继续查看

CIPU的起源

最近,很多人原来同事问我,2022阿里云峰会提出了什么新的技术和概念。在2022年6月13号,阿里云线上峰会开幕,主题是“深耕计算 创造价值”,阿里云总裁行癫大佬提出全新的云计算技术体系架构-CIPU


其实,在阿里内部 CIPU 并不是什么新鲜事物,是事物发展的必然规律。从阿里自研云操作系统「飞天」开始,阿里这些年一直都在持续地投入云技术,2021年云栖大会,一口气发布了「磐石」「倚天」「神龙4.0」「灵杰」,所以说 CIPU 也是规划已久、深耕计算,向下生长的必然结果。


image.png


但想更好地理解 CIPU 的出现,还是有必要先说说 DPU。这里所说的“DPU”,是泛指各种具备DPU类似功能和定位的加速卡协处理器,大家的叫法虽然不同,想干的事、想搅的局都差不多。

image.png

随着DPU的热炒,还有一大批独立公司涌现出来,纷纷入局入坑,由于势能有限,这类公司的产品往往盯住一些行业细分场景,比如数据库加速、统一通信加速。这个棋路,初看合理,但长线会很艰辛,定制化多,市场规模也有限。


无论是叫做数据中心处理器(英伟达DPU),还是叫做基础设施处理器(英特尔IPU),最大的目标市场,都是CSP,也就是像“3A”这样的超大云服务商。这说明云服务商使用DPU是必然趋势,但通用型的DPU能满足各大云商“变态”的需求吗?

显然不能!


道理很简单,所有的硬件基础设施,都需要跟软件来相互加持。传统IT时代,跟CPU配合的是OS操作系统,当年Wintel组合就是用这种互相加持,取代了IBM的PC霸主地位。


而到了如今的云时代,DPU这样的新型基础设施,必须要靠CloudOS来加持,才能发挥最大作用。


那么云操作系统掌握在谁手里呢?当然是这些云大厂们。

手握CloudOS、深谙云需求的云大厂们,硬件能力够格吗?能造出靠谱的DPU来吗?


完全不用担心!其实这几年来他们一直在修炼硬件内功,AWS自研的ARM处理器已经进化到第三代了(Graviton3),而接近DPU形态的Nitro则打磨了更多年。

image.png


阿里云也是一样,自研的“神龙”架构其实就可以看做是DPU,去年阿里云还发布了吊炸天的5nm工艺倚天710处理器…


image.png


不止这“两A”,其他的云大厂也都在悄么声的搞硬件、搞芯片,大家都看到了重新定义云基础设施、把CloudOS与底层紧耦合的机会,所以云大厂的硬件能力,不必担心。


再举个极端的例子,上个月发生了件大事,博通610亿美金收购了VMware,接下来,很有可能整出一个针对私有云环境深度优化的“DPU”或者什么怪东西出来。


CIPU的本质

CIPU 为什么是一次冒险的探索呢?

长期以来,IT基础架构,都是以CPU为中心的。不管是集中式的传统IT架构,还是分布式的云架构,CPU都是当仁不让的老大。

image.png

即便是曾经的阿里神龙或者AWS Nitro,虽然具备了强大的卸载加速能力,但它们依然是插在服务器里的一块卡。

负责充当CPU老大的打手,干一些脏活累活(存储卸载、网络卸载、虚拟化和管理卸载)。

image.png

所以,从当前时间点往前看,整个云基础设施,仍然以服务器为单位、以CPU为中心。即便服务器上都插了各种加速卡,但CPU是“话事人”,CloudOS想要更直接、更流畅地操控基础设施,总有那么一点不顺滑,无法完成垂直整合。


image.png

但是,今天阿里云CIPU发布,云基础设施的架构被颠覆了,从以CPU为中心,变成了以CIPU为中心。

“DPU”从以前的CPU小跟班,摇身一变当家做主了。CIPU就是这个升格版的主人,它成为数据中心里连接计算、存储、网络的中枢。

image.png

在以CIPU为中心的架构下,云基础设施即便物理外观看起来还是一台台服务器,但内部的逻辑结构和连接关系已经发生了巨变。下图是阿里云给出的逻辑架构。


image.png


未来的场景是这样的


image.png

体系架构下,在一个集群里,CIPU是核心“话事人阿里飞天OS可以更直接操控CIPU,把飞天的所有软实力,全部装载到CIPU里,管理平面更简洁,加速更彻底。

image.png

以前阿里云神龙也好,AWS Nitro也罢,加速能力相当于“外挂”,而CIPU新架构,这种加速和管控,相当于“原生”,形成了云操作系统的垂直一体。因此,CIPU带来了更加吊炸天的加速体验,我不啰嗦了,直接列一下阿里云今天公布的官方数据吧↓


image.png

这里面最夸张的一项,莫过于eRDMA的延时低至5.5μs,此前业界在公有云上能拿得出手的RDMA延时,只有15.5μs。5.5μs意味着什么?用户可以真正放心地把HPC工作负载放到云上去跑了,通过云计算,高性能计算得到了双重普惠:

①云上超算低成本,性能无忧,更灵活的规模和弹性

②全应用场景的加速编程生态兼容。


image.png

而一些通用场景,同样可以考虑用eRDMA网络来提速,根据阿里云官方公布的数据,Redis场景提速130%,Spark场景提速30%,AI深度学习训练场景提速30%。


其它主流通用计算场景,在CIPU的加持下,性能更是得到大幅提升,全面领先于友商云,以下数据来源于阿里云官方↓

image.png

总结

CIPU是阿里云为飞天操作系统量身订做的,是业界第一个云操作系统垂直软硬一体,All in One的全新基础设施体系架构。


CIPU将成为阿里云基础设施底座的中轴,对计算、存储、网络进行全面的云化加速,未来,CIPU Centric的体系不仅会颠覆数据中心的逻辑架构,也会对物理架构产生深远影响。

image.png

CIPU消除了90%以上的云税(云化开销):计算虚拟化开销、存储虚拟化+存算分类转发开销、网络虚拟化+网络转发开销、内核TCP协议栈开销、RPC序列化&反序列化开销。


这就好比从蒸汽机进化到内燃机,本质上是能量转换效率的大幅提升。

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
5 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
6 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
15 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
13 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
12 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
23 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
13 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
14 0
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
13 0
阿里云ECS的使用体验
我是一名大二的学生,目前在山东商业职业技术学院就读,我所学的专业是物联网应用技术,在这学期所学课程《云计算及其应用》中老师给我们讲解到了阿里云服务器,并且用“飞天加速计划·高校学生在家实践”的活动让我们做实训,在开发社区中自学相应的网站开发的基础。
164 0
+关注
凌云Cloud
All in Cloud Native PaaS , Focus on Develop\Data middle-end
67
文章
15
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载