云基础设施处理器CIPU 2.0技术解读

本文涉及的产品
性能测试 PTS,5000VUM额度
可观测监控 Prometheus 版,每月50GB免费额度
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 本文深入解读阿里云的CIPU(Cloud Infrastructure Processing Unit)技术,探讨其在云计算中的定位与价值。面对当前XPU命名泛滥的问题,阿里云为何选择CIPU这一名称?CIPU旨在解决云计算中的弹性、安全、稳定、性能和成本五大核心需求。通过对比DPU和IPU,CIPU更专注于云环境下的基础设施处理,确保数据的安全性、传输的可靠性和存储的稳定性。此外,文章还回顾了神龙计算的历史发展,强调CIPU2.0在提升性能、优化资源调度和满足大客户需求方面的进展。最终,CIPU作为手段,其核心目标是为客户提供更高性价比和更稳定的云服务。

今天将分享关于CIPU的深度技术解读。首先,一个显而易见的问题出现了:CIPU究竟是什么?在当前的AI时代,我们看到了各种XPU的爆炸,如CPU、NPU、DPU、IPU等,以至于26个字母似乎已经无法满足人类对XPU的命名需求。阿里云是否因为一个X不够用,而要在前面加上两个字母来满足命名欲望?这是一个常见且重要的问题,就是这个XP都不会用还要扩成四个字,那么四个字的目的是什么特别是在这些浮华的概念中,人们往往难以分辨真伪。


因此首先要回答的问题是:阿里云为什么要引入CIPU?这是否是在哗众取宠,或者无中生有?业界已经存在所谓的DPU,以及英特尔提出的IPU等名词。在此基础上,阿里云为何要选择CIPU这个名称?


关于DPU,首先要明确其全称是Data Processing Unit(数据处理单元)。然而,这个名字的涵盖范围过于宽泛。无论是今天的英伟达GPU博尔康博尔康的汤姆霍克博尔康jurry,还是博尔康等公司的交换芯片,甚至是FPGA,都可以被视作处理数据的单元。只要是数字事件里面的处理数字信号的都可以叫DPU这是DPU唯一相对的通信号比如做视频前端就模拟信号可以认为它不叫DPU,其他的可以把它叫DPU这时候DPU是一个很腐败的名词他根本不知道自己在做什么自己的名字没有取清楚所以这个DPU实在是太大了当然由于DPU得到了业界大拿的推广,很多人可能并不真正理解但仍然叫DPU。然而必须要回答的问题是:这些所谓的DPU到底在做什么?


相比之下,英特尔提出的IPU(Infrastructure Processing Unit,基础设施处理器)这个名字要更为。如果要在DPU和IPU的两个名字之间选择,我会更倾向于选择英特尔的IPU,因为它的名称更。大家一定要知道如果有人忽悠你给你拿大的概念他一定是自己没想清楚要么蠢要么坏。英特尔的IPU取得相对比较好但是为什么没有用这是原因什么原因呢为什么前面一定要在IPU的前面再加   seses cloud?因为认为在脱离云环境的情况下,IPU是很难生存的。在私有云、专有云、Openstag和on more wande等环境中,哪家把IP用起来了,哪家把DP用起来了,其实全球都没用起来,在私有云、专有云环境中的DPU、IPU是纯粹的伪概念,全球绝对没有一个收费的卖出去。所以真正用起来的只有在云的环境中。 把DPU、IPU、CPU 这些名字拨掉,先不管它的手段,它的目的是什么?CIPU、DPU、IPU为什么是这样形成的,因为我们认为业界这些名词太腐败。这次我们不得不取一个更小的、更准确的名字,所以就有了阿里云的云技术设施、处理器。

 

一、CIPU2.0定位

首先先解读名字,在做任何事之前,一定是要问的是目的,而不是手段,如果总是用手段把目的替代掉,是因为没有想清楚。不管是CIPU或飞天云操作系统,这些东西对客户来说都是手段,不是目的。云计算的目的是什么?云计算回到初心真正目的只有五个分别是弹性、安全、稳定、性能和成本。


今天将深入阐述CIPU的价值,特别是在与客户沟通时,应如何清晰传达其背后的意义。客户关注的核心并非技术名词如飞天、神龙、洛神盘古,或是CIPU、IPU等,这些仅是手段。客户真正关心的是,我们能为他们带来何种价值。比如客户到阿里云来听你讲,他绝不是听“你有什么飞天,有什么神龙,有什么洛神盘古,也不是听你有什么CIPU、IPU”,这些东西都是手段,重点是要和客户讲清楚你的价值是什么?比如弹性,根据我在阿里云待了很多年的经历,阿里云是国内头部的云计算厂商,还有一个是安全,如果数据没有安全,那么还谈什么其他东西,如果数据已经被泄露了,那这个东西就没法谈了,第三个是稳定,不管是安全、稳定还是弹性,当这三个先决条件达到时,谈的就是性价比, 这是云的逻辑,云的逻辑不是飞天、CIPU、DPU, 怎么满足客户的需求?这是叙事真正应该有的逻辑,在做叙事的时候,CIP即云的核心目标是是弹性、安全和稳定性能成本,这是它的五个目标。而CIPU对云来说只是它的一个手段,所以CIPU 是以云的目的为中心的,它自己只是手段,不是目的。那么为了达到这些目的,我的手段是什么呢?比如弹性,弹性对于云来说最重要的是做大支援池,即所有云的弹性不是免费的,而且任何人都想以最低成本,即今天想用明天就释放,那释放的资源对于云厂商,它是闲置的。比如老二拥有可以瞬间移动,而老三能够真正做到云的最根本的手段是什么呢?即我要把这个规模做大,做到100万台服务器、200万台服务器,并把内部的生产关系解决,让他们在一个池子中调度, 这样才能真正的把弹性的息烽风填谷效应做出来。


这是CIPU的第一个作用,要做到安全容器和VM这两个部分,安全容器支撑了ACS,并让他和传统的通用计算VM 在一个池子中,这是云的第一个逻辑。只有进行计算并持,才会有弹性,第二个是安全,如果数据已经保证不了安全,就没有任何客户想上云,而安全的核心逻辑有三条,一个是数据在使用过程、传输过程和存储过程中是否安全,即在计算存储网络的三个环节中,它的安全能不能得到保障。第三个是稳定,如果没有稳定那有再高的性价比也是没有意义的,而稳定和安全在更多的时候,是要交了大量的学费,才知道这个事情是难能可贵的,如果没有交学费,包括内部的团队没有在上面交过学费,他会认为这个是不重要的,但是当你发生P0、P1,阿里云是不避讳发生了大量的P1事故,只有你交了学费时,才会知道什么是安全、稳定和真正的性价比,最后一个是性价比,性能要高、成本要低这个逻辑是很straightforward。


对云来说,第一重要的是弹性,即弹性的大并池资源并持,而资源并持的逻辑是需要有一种计算载体满足比如ECS的安全容器需求,并让传统的ECS的无厌在一个池子中,那么最好的载体是弹性,而裸金属是物理集,即把存储网络、管控接管、计算资源让他再一次部署虚拟化技术,这样的好处是可以和ACS并存,而且云的pass、大客户上云,他会问很多问题,比如稳态部分和弹性部分怎么最优化的支持?对大客户来说,稳态部分是用自己来做一些混布,混布是就要求安全容器和软碎容器的混布,这时弹性螺钉损是最好的选择,当然弹性部分也可以直接用ECS的ACS、ECI。所以它的第一个目的是虚拟机和pass的安全容器的大病池,并且我们是全球做的最早的,在18年就完成了,即神农已经把CIPU、阿里集团的ECS全量的在CIPU上架构了,到今天是180已经过去6年了,整个阿里的服务器都是在CIPU的架构里面的,我们跟海外的A8面世,并在2017年的10月份前后发布了国内技术战略执行的最坚决的阿里的服务器,不管是集团还是阿里云都是基于CIPU架构,包括云服务。第二个是安全的问题,安全是Aita in use。


在计算过程中,第一是要安全,第二是数据它是传输的,传输有两个传输,即服务器与服务器之间的传输,计算节点之间的数据传输,要保证它是安全的,第三是当数据没有在计算传输的时候,它一定就在存在某一个地方,要么是存储的时候,要么是安全,可以从这三方面来解读这个问题,首先是因诱子,在数据正在计算时,怎么保证它的安全,这包含了两大块技术,第一块是在服务器中,从第一行代码中的微码到boss再到OS gas hose的OS、hypervisor gas的OS到APP,希望全链路从固件到所有代码,都是可信的,比如我不敢用安卓手机,因为感觉那些APP在一些小的市场中下来的都是小的地雷,我可能比较相信谷歌Pro或苹果的APP store,因为我认为如果在小的市场中装一个APP这个事情是不严肃的,那么在企业级的运算中,如果boss、微码没有度量过,这些企业观念数据你能安心安的跑吗?你会没有一点洁癖吗?即是只敢用iPhone,不敢用安卓的一个逻辑。所有部件一定是要有信任根的、是个可信的。第二个是厂商,比如樱桃MD,我们再提供的机密计算、加密计算是很重要的。


因为当前云厂商数据安全问题备受关注,实际上,用户担忧云厂商是否会擅自处理其数据。例如,当用户的GDP连接到虚拟机(VM)时,我的数据直接就把你弄成当了。即便用户信任如阿里云这样的云服务商,但考虑到阿里云拥有上万名工程师,难以确保每位工程师都具备高度的价值观和道德水准。这一问题极为深刻,即用户是否能无条件信任云服务商,包括其高层管理人员不会窃取用户数据。


在此背景下,机密计算技术应运而生。无论是SGX还是TME等技术,都通过数据加密确保了数据的安全性,即使云服务商有意窃取也无法得逞。这体现了零信任的创始(detying use。此外,还有两个关键点需要注意:


一是数据在虚拟机间的传输安全。即便选择了大型云服务商,其作恶成本较高,但无法保证所有工程师都不存在恶意行为。因此,所有后台数据传输过程必须加密,以确保即使工程师有恶意企图,也无法立即获取敏感信息如密码等。


二是数据存储的安全性。比如工程师今天他就起了心,想作恶,他也没法立刻把你的password抓出来,还有是计算和传输这个事情解决后,还有一个是存储,存储进去的数据,难道我找一个外报警察,啪啦了几个盘出去,就把数据恢复了,那这个事情就天下大乱了,所以数据不能仅仅依赖外部备份和恢复措施,加密存储同样至关重要。我们对此持严肃认真态度,因为安全若得不到保障,其他如性价比等因素都毫无意义。


稳定是要交学费后才能懂的,比如哪个团队跟你PK,从来不把稳定性当做一回事,那么当他交了学费的时候,他就知道了什么是交学费,再比如说你捅了PE事故,你知道稳定是什么事情吗?稳定不能只把它贴在墙上,比如老板来跟你讲稳定或领导带着见客户,而把稳定当作生命线是不可能的。在技术层面,我们采取了几个措施来确保稳定性一是数据的稳定性Ras数据不错不丢是很重要的事情,这个事情也要交够学费才知道其重要原因是什么,而交学费也是要本钱的,比如你的机器人没有到10万、20万台,那么这个数据他会静默错误, 因为我们的硬件都有loss,当数据有错的时候,比如以前我们内部就出现过一次把数据库中的数据搞错了,是在2017、2018年,最早期的时候,最后把这些问题修掉后并交了学费,在设计芯片、软件的时候,我们会进行每一个环节的Ras、GO校验、ECC校验等校验,以确保客户数据的准确无误。


二是云运维的稳定性,通过热迁移技术实现。当硬件、微码需要升级时,是无法在线热升级的,这时需要把虚拟机迁移走,那么迁移有一个核心技术,如果你不用直通设备,做热迁移是很简单的,但为什么要用直通设备呢?因为IO性能需要设备直通的虚拟化,当你需要高性能的时候,热迁移技术就不是那么好做到了,就需要把商业、后面的设备状态全部都要做好,而且做好不仅仅是做好网络,还要把存储设备和谭啸阿丁都做了,并且需要所有的设备都支持。


三是组件的热升级,比如热迁移ECS的每一个VM一年要迁移两次,即线上上亿的VM ,并且每个VM要迁移两次来做运维,这很关键。再比如我们有大量的组件,而这些组件都要进行热升级,要让客户无感的、不知道的,如果要来通知客户才能升级云,这个生意是没法做的,所以在技术层面怎么保证稳定性呢?


四是成本控制,通过技术创新和弹性来降低成本。弹性的核心是通过虚拟化来做的,比如通过Kevin架构或通过CIPU、BPU、IPU架构,用Kevin架构需要10%的CPU资源、10%的DDR资源、M盘和一个商用网卡组成了虚拟化的开销的成本,他们在成本上有10%的差距。


此外,性能问题也是我们需要关注的重点。我们致力于解决IO性能、安全性能等问题,会看到有VPC、EBS弹性凝视盘以及DFS、CPFS、弹性RDMA很多性能在这里面,而整个业界并没有把DPU、IPU为什么能产生性能收益说清楚,那么这个原理是什么呢,在计算机体系结构视角看,它为什么能产生性价比、降低石岩?整个业界其实都稀里糊涂的,谁也不来解决这个问题,当然这是美国人开了很坏的头,取了一个名字也不给解释。整个CIP或DPU、IPU在计算机体系结构的实质是近数据计算,DSA架构是它的数据,即计算机体系结构。

 

二、神龙计算历史回顾

我们做的是比较早的,从2017年第一代的默克1.0就开始了,我们是全世界的第一个弹性裸金属,它是在10月14号发行的,而阿里云诞生的AWM是2017年的11月发行的,它解决的问题是什么呢?到今天安全容器都是一个刚需,但安全容器是没法直接跑,在物业中,安全容器是支持的,对于大客户的稳态资源的混布是很有用的,对大客户的稳态资源的离线资源,一般需要一个安全容器或VM来做并池,用来隔离,让他来跑。第二代是云的并池,即VM和安全容器的一个并池 然后再进一步做高吞吐和低视野。


从2017年到今天已经过去七年了,我们发展了CIPU2.0,在CIPU2.0之前,是基于FBG做的,而CIPU2.0是低于AC科的,因为AC科的芯片失效,会有显著的下降,保证ECS的荡机率会下降20%,这是CIP 2.0 对客户的价值。


第二个是data in use、data in motion、data utmost即加密和固件的可信根,进一步将性能做了提升,从以前的200G到400G ,比如弹性安迪酶或VPC转发的PPS,当然我写的PPS它根本不是最重要的指标, 但因为在对外文档,必须把PR指标放在这。真正重要的VPC是什么呢?比如你的Reddis、NJXMycircle 要跑高,肯定需要网络性能 ,而网络性它是一个木桶,有很多短板,比如你的PPS要超过20兆、食盐要下降,再比如买circle 的单目食盐,他会影响单个规划的QPS,而丢不丢包、中断处理的效率是比较bedring的,也是个数,即可能内部有一个图案,我没在这儿,但歇尔可能有,总共加起来有15项,而这15项就是一个木桶,为什么把它放在这儿呢?有时候一些简单的数字可能会更好抵御我技术的先进性,但是这只是冰山中的一角,当看到一个木桶的15块板的时候,才知道什么是全球第一的性能,可以进行测,任意找一个ECS八代的高阻屏,因为现在用的都是英特尔,其频率一样、内存一样,但是my circle NJX Redis一旦跑起来 就能看到显著的差别。


CIP2.0还有一个目的是进一步聚焦数据密集性以及业务的需求,而DMA、DFS是什么东西呢?但凡是大客户上云,他就一定会遇到一个什么问题是计算进了云的VPC去访问存储,会有一个天然的鸿沟是以前都在under类中,比如可能一个集群是200T,当计算进来一个VCC后或网络虚拟化的隔离层,这样性能会受到很大的影响,在这时,他的DFS需求就出来,这是2018年集团上云 ,也是国内最大的一个云下客户上云遇到的最大的挑战,在挑战中,提炼出来DFS的一个需求 是计算在VPC之中,过后它的虚拟化的网络隔离的开销会扛不住,在集训200T的时候,怎么解决DFC的问题?第二个是CPFS的AI训练check point,它可能是分钟级的切割point,这个切割point已经上TB了,那么它需要补血双向400G的能力,这是数据密集型,还有一个是DMA。


VPC保持了阿迪蜜的生态沃斯不变,同时又能跨PS、WD和SW,不是SW,是能跨多跳,而把贷款利用率达到98%的全球只有我们这一家,相同的技术可能会在一年半或两年后出现,但今天很难找到买ECS就能有这个效果的。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
虚拟化 云计算 容器
云计算知识第五讲:虚拟化架构、特点及优势
虚拟化架构、特点及优势有哪些?
云计算知识第五讲:虚拟化架构、特点及优势
|
5月前
|
存储 弹性计算 负载均衡
云计算演进问题之CIPU与神龙计算的关系如何解决
云计算演进问题之CIPU与神龙计算的关系如何解决
|
5月前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
数据中心
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU是怎么诞生的
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU是怎么诞生的自制脑图
114 1
|
数据中心
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU+飞天
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU+飞天自制脑图
164 1
|
数据中心
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——何为CIPU
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——何为CIPU自制脑图
178 1
|
数据中心
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU简介
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——CIPU简介自制脑图
234 1
|
数据中心
《阿里云产品手册2022-2023 版》——云数据中心专用处理器CIPU
《阿里云产品手册2022-2023 版》——云数据中心专用处理器CIPU
189 0
《阿里云产品手册2022-2023 版》——云数据中心专用处理器CIPU
|
数据中心
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU自制脑图
124 1