【关于增加话题奖品,鼓励原创的公示】
社区话题自推出以来就受到了社区用户的欢迎,许多用户给出了精彩的观点,但我们也发现不少获奖的回答存在抄袭的行为,因此我们决定:
在本话题下额外增加三个打赏名额,鼓励原创、有自己观点的回答用户:上进小菜猪、秋雨晨曦梦、科技有我,这些获奖用户可以直接前往积分商城1积分专区兑换小米充电宝礼品。
今后对于话题讨论进行严格审核,对于存在抄袭的回答,一律不发礼品。图文并茂、内容丰富固然重要,但是我们更重视有观点的原创表达!
最近阿里巴巴达摩院发布了2023十大科技趋势,其中涵盖了生成式AI、云原生安全、双引擎智能决策、软硬融合云计算体系架构等科技创新,今天我们来聊一聊CIPU这个话题,详细内容请前往《2023十大科技趋势》,了解最新科技趋势。
《2023年十大科技趋势》中提到云计算以CIPU为中心的全新云计算体系架构深度演进,通过软件定义、硬件加速,在保持云上应用开发的高弹性和敏捷性的同时,带来云上应用的全面加速。
在CIPU新的体系架构下,软硬一体化带来硬件结构的融合,并接入物理的计算、存储、网络资源、通过硬件资源的快速云化实现硬件加速,CIPU会是云计算的未来吗?你了解它是如何进行计算加速的吗?
本期话题
● 你了解软件定义、硬件加速的实现方式吗?CIPU对于通用计算将会有怎样的提升?它是否会成为高性能计算的技术里程碑?
● 你觉得软硬融合的CIPU将会在哪些场景具有突出表现?如在科学计算、渲染、游戏等场景。
● 你觉得哪些行业对算力的要求较高?对芯片行业将带来怎样的发展机遇?
以上话题任选讨论,话题不限,友好发言哦!欢迎留言,分享你的观点!无意义灌水将直接删除。
本期奖品
截止2023年1月28日24时,本次话题将选取5名高质量的回答,奖励小米充电宝*1。
注:话题讨论要求原创,如有参考,一律注明出处,否则视为抄袭不予发奖。获奖名单将于3个工作日内公布,礼品将于7个工作日内发放,节假日顺延。
目前,数字经济已成为中国经济的重要组成部分。在“十四五”规划第十五章和2035年远景目标纲要中,明确制定了打造数字经济新优势的目标。要充分发挥海量数据和丰富应用场景优势,推动数字技术与实体经济深度融合,赋能传统产业转型升级,加快催生新产业、新业态、新模式,壮大经济发展新引擎,计算能力的发展越来越受到业界的重视。下面是我对算力的较高要求行业的列举:
1.人工智能对计算能力的需求当然非常高。 缺乏模型训练所需的数据、计算基础设施不足以及人工智能应用解决方案的高成本是人工智能行业发展面临的主要挑战。在人工智能的三大要素——数据、算法和算力中,算力成为人工智能产业化进一步发展的关键。
2.影视行业和设计行业对计算能力的要求也非常高。
场景的渲染计算和物理效果(刚体、柔体、流体、粒子、破碎等)的模拟都是非常计算机资源。由于计算性能的限制,他们亲身经历了对这些东西的学习和摸索,例如3D,并且CPU在渲染过程中长时间处于满载状态。有时,调整参数以查看实际更改结果需要很长时间。
3.科研领域-计算物理
在计算物理等科研领域,计算能力不足导致的瓶颈随处可见。因此,受限于有限的计算资源,在大多数情况下,研究人员只能在不到一微秒的小规模内模拟数十万个原子。 尽管这种小规模、短时间的模拟有其优点,但往往无法满足研究需求。例如,如果你想模拟核辐射对材料的损伤,你必须对材料进行几年的辐射模拟。模拟类似钢的疲劳断裂和金属在酸性环境中的腐蚀对时间和空间尺度有很高的要求。
计算能力来自芯片,并通过基础软件的有效组织最终释放给终端应用程序。目前,数据中心的核心计算芯片包括CPU、GPU、FPGA和少量ASIC,其中各类通用CPU仍占据绝对优势地位。数据显示,目前CPU的年出货量超过200亿台,其中数据中心使用的服务器端CPU约2000万台,PC(包括台式机、工作站等)约2.6亿台。仅在2020年第四季度,基于ARM IP的芯片的全球出货量达到创纪录的67亿台;出货的GPU数量也非常多,超过4亿(包括Intel和AMD的集成核心显示器),其中大部分用于各种终端设备,例如大量消费和工业电子产品。在云端,高性能CPU和GPU是主要的两种计算芯片——规模最大、单价最高、应用环境最复杂的芯片。
目前,各类CPU(包括服务器、桌面、移动、工业控制和各种嵌入式场景)的年出货量超过100亿,全球每人平均消费量可达3个CPU。基本上可以认为,CPU已经成为一种无处不在的设备。构建在CPU上的软硬件生态系统,无论是x86还是ARM,都自然而然地成为了整个算力系统的载体,CPU责无旁贷地成为这个系统中的主角。随着对图形和图像处理的需求,GPU出现在20世纪90年代,并逐渐发展到现在的GPU。随着深度学习算法的爆炸,GPU除了图像处理之外,还找到了一个部署空间——神经网络模型的训练。到目前为止,GPU一直主导着神经网络的训练。随着第四次AI浪潮的到来,GPU全球领导者NVIDIA的市值也在2020年8月超过了X86 CPU的领导者英特尔。GPU也成为计算芯片在下一代数据中心中的另一个重要角色。与摩尔定律的放缓同时,GPU作为该领域专用架构(DSA)技术路线的代表,最终成为数据中心的核心计算芯片之一。
我认为,CIPU是未来云计算IaaS“基建”的最重要的组成部分之一,它通过管理调度IaaS中硬件,加速计算、存储、网络,进而提升云服务器的整体能效。
CIPU是IaaS分布式技术发展的成果。 当前的IaaS年代,算力、存储、网络与传统硬件解耦,通过虚拟化的方式,构建虚拟池,进而实现弹性的算力/存储供给,并提供运维自动化。 虚拟化的好处很多,例如隔壁通讯领域,NFV免去了传统网络硬件设备的麻烦,而是将路由器、交换机、防火墙、负载均衡这些不同的网络功能封装成独立的模块化软件,通过在硬件设备上运行不同的模块化软件,在单一硬件设备上实现多样化的网络功能。
但在IaaS这块,问题就来了,一是虚拟化导致性能无法充分利用,二是I/O和算力的匹配越来越难。 例如阿里表示过,虚拟化会占用大量的CPU资源:
Xen 时代,Xen Hypervisor DOM0 消耗 XEON 一半的 CPU 资源,也就是只有一半的 CPU 资源可以对外售卖,可以看到虚拟化云计算税极其沉重。 I/O方面,服务器CPU如果没有足够多的输入/输出数据,算力就只能“饿”着,传统冯诺依曼架构的“内存墙”降低了计算能耗比。所以服务器CPU上我们经常能看到多通道内存、茫茫多的PCI-E通道等等。
也因此有了CIPU的雏形。例如早年人们发明了TOE(TCP/IP Offloading Engine),将CPU处理网络协议数据包的I/O转移到网卡硬件中进行,避免CPU因为I/O处理产生的中断,进而提升服务器处理性能。 英伟达2020年收购了一家公司,并将这部分功能命名为DPU,英伟达表示:
NVIDIA® BlueField® DPU(数据处理器)为现代数据中心和超级计算基础设施带来了前所未有的创新。通过对各种高级网络、存储和安全业务进行卸载、加速和隔离,BlueField DPU 可为云端、数据中心或边缘计算等环境中的各种工作负载提供安全、加速的基础设施。
现在DPU已经成为英伟达的企业业务重要组成部分,最新一期财报中,企业业务也已经超过消费者业务,成为英伟达营业收入的第一来源。
CIPU是软硬件融合的最佳形式之一 问题还是那个问题,IaaS需要虚拟化硬件设备进行服务,会导致性能损失。 还是为了解决这个问题,鉴于IaaS的弹性、算力、存储、能耗的需求,阿里巴巴结合自身云服务实例,提出了CIPU的概念: CIPU(Cloud Infrastructure Processing Unit,云基础设施处理器),顾名思义,就是把 IDC 计算、存储、网络基础设施云化并且硬件加速的专用业务处理器。
从下面的架构图上我们可以看到,CIPU加速不是做专用算力,而是一方面,通过调度实现CPU一部分能力的offload,提升CPU/GPU/专用芯片的运算效能;另一方面,优化算力和存储之间的访问效率,减少“内存墙”的问题,提升数据访问效率。
有了CIPU,IaaS的价格还能进一步降低,比如降低算力“损耗”、提升网络存储IOPS、构建RDMA弹性网络。 例如阿里表示,
单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%,在Serverless场景下6秒可拉起3000个弹性容器实例 通过CIPU全硬件虚拟化和转发加速,存储时延最低可至30us,IOPS高达300万,存储带宽可达200Gbps。 CIPU高带宽物理网络硬件加速,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延降低至16us,RDMA协议下更可低至5.5us。
** 总结** 随着高带宽的到来,CPU增长速度与I/O速度差距逐渐拉大,CIPU应运而生。 作为计算负载的引擎,CIPU的卸载和调度能提升IaaS通过虚拟化后实现网络、计算、存储资源云化加速,提升运算效率、减少能耗浪费。 CIPU这个概念,从全球云服务市场来看,有望成为计算市场继CPU、GPU之后的第三大支柱,但技术标准、生态等领域仍处于早期阶段,神龙4.0是不错的案例,但后续发展还需要各大厂商持续摸索。
阿里之前既然把新发布的处理器特意命名为CIPU,也就是Cloud Infrastructure Processing Units的首字母缩写,显然对于其在云计算的未来有充分信心。
之前阿里云最为大众熟悉的应用案例就是应对双11的付款高峰,以及12306的春运高峰了。这种瞬时超高并发的冲击对云设施要求很高,分布式和存算分离虽然大大提高了系统利用效率,但随着相关业务规模的快速增长和业务复杂度的上升,云计算对算力、带宽和延迟的要求也越来越高。
在硬件方面,传统CPU虽然可以胜任数据中心的工作,但软件定义的复杂度越来越高,面对计算、存储、网络等复杂需求,数据中心的规模越来越大,效率瓶颈十分明显。
除此之外,CPU自身的IPC进步幅度也在大幅度放缓,例如:业内龙头厂商的CPU的IDC在2015年之后增长越来越慢:
来自Reddit
这不仅有架构上的瓶颈,还有IDM厂家面临先进工艺的掣肘,N10和N7的多年延迟严重拖慢了升级节奏,即使业内最领先厂商的先进工艺SRAM密度进度也基本趋于停滞:
SRAM密度变化
而当今热点事件的爆发,视频直播的兴起等对低延迟、高并发的云服务要求大大提高,之前发布的阿里云直播靠着全球的2800多个CDN节点和150+TB的带宽才实现高清直播服务的保障。在类似的案例中,随着硬件规模的不断扩张,虚拟化的负担也更重,硬件上实现加速计算,提高效率就很有必要。
而自从DSA兴起后,硬件级专用加速计算优势就很明显,NVMe,IPSec之类的很多协议直接用DPU、IPU或CIPU中的加速模块来实现,比单纯扔到CPU上会快很多。算力的损耗,存储的加速和网络延迟的优化等是解决CPU负载过重的关键。IPU和DPU虽然路线不同,但分担CPU更多的计算任务的总思路是相通的。
目前CIPU虽然缺乏很具体的公开测试数据作支撑,但看介绍在网络测,实现硬件级加速,又保持一定的需求弹性来做RDMA的应用,有点类似于用FPGA来实现5微秒的延迟。而存储和计算,结合飞天系统平台的优化,对于实现复杂应用场景的硬件级加速也很有必要。
比如前边提到过的视频直播场景,现在观众对直播的清晰度、实时性和稳定性的要求都很高,热门赛事直播从1080P升级到4K,8K,端到端的直播延迟通常在1秒以下。这种数据密集型对低延迟、高带宽的需求可以利用CIPU可以实现更好的资源池调配,虚拟化损耗的降低,网络和存储的加速都能极大地提升视频直播服务的质量,使得直播门户可以更好地给观众提供服务。CIPU和飞天这种软硬结合的思路在未来也有着很大的优化潜力。
来自阿里云
总之,无论是基于FPGA定制的神龙系列处理器,还是平头哥做的倚天系列CPU,如今的CIPU,这些硬件说到底还是阿里云自身有需求。从CPU到CIPU,从硬件到软件,逐步构建起了云计算的核心能力。
数字化时代,数据量持续暴涨,势必需要更加强大的体系架构。CPU作为云计算的管控和加速中心,通过软件定义的方式去做优化,不光成本高,而且难以实现用户不断增长的使用需求,所以就到了一个瓶颈期。在我看来,CIPU就是一个很好的破局思路,未来在科学计算、游戏渲染等很多场景的应用估计都会有着颠覆性的革新。
比如,CIPU能够通过特定的操作系统把阿里云全球200多万台服务器变成一台“超级计算机”,一方面接入物理计算、存储、网络资源,快速云化并进行硬件加速,另一方面接入飞天云操作系统,管控阿里云全球上百万台服务器,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快。也就是说,软件定义和硬件加速同在,从而带来更高性能、更低价格、更可靠的云计算服务,很容易就突破了现在云计算的瓶颈,直接从源头再造了云计算全新发展路径。
再比如,随着人们娱乐需求激增,追求越来越好的游戏体验度,游戏厂商自然会不遗余力地去全方位进行优化,这当中就少不了要依托CIPU的云计算新生态。就拿3D画面质量和游戏延迟来说,不断进行优化的过程中,管理基础设施规模越来越大,复杂程度越来越高,数据密集型的计算也越来越多,纯软件定义的以CPU为中心的云体系结构虚拟化成本就会很高,更重要的是不好实现低时延、高带宽、高品质的需求。而依托CIPU,通过深度定制底层基础设施,用全新的管控中心替换掉CPU的管控职能,调用、整合更多的软硬件资源,实现软硬件一体化,既能解决数据迁移带宽的问题,也能云化虚拟化管控数据中心,无疑能够为游戏渲染和延迟的持续优化提供强大的基础支撑。
另外,我觉得,未来基于CIPU的云计算新生态会愈发成熟和完善,像是神龙计算平台、盘古存储平台、洛神网络平台,以及阿里云其他自研产品等等,都能和CIPU进行深度适配,继而就形成了自研芯片、服务器、存储、网络、安全、计算、操作系统等软硬一体的新型计算体系架构,这样就进一步拓展了云计算的极致性能和体验,然后向着更多的应用领域延伸。
先来了解软硬融合指的是什么?飞天云操作系统+CIPU,飞天云系统在设计的时候就已经对内核的组件、不同的云产品进行了深度定制开发,其目的是能更好的适配CIPU、更好的利用底层CIPU的能力,起到1+1>2的效果!
会应用在哪些领域呢?比较深层次来讲,软硬融合的CIPU肯定会对通用计算、大数据、云计算、人工智能行业带来转型,只要涉及到数据处理方面的,几乎都可以应用上去。
从我们经常接触到领域来说,科学计算肯定会有质的提升,基于CIPU和飞天的新一代云计算架构体系,Redis性能提升了68%、MySQL提升了60%、Nginx提升了30%,数据处理的快了,计算性能肯定有很大的提升。
再来看渲染能力,现在无非就是对大量文本数据、图像、视频数据的渲染,也是万变不离其宗,归根结底还是对海量数据加速处理,这个加速处理,CIPU采用的是软硬融合,打破硬件设备之间的壁垒。
包括对游戏的提升,游戏的原理就是各种数据在设备和服务器之间传输,交给服务器处理,CIPU提高了数据传输速度和处理速度,当然可以提升游戏的各种性能,将来可能会做到,用性能较差的电脑,通过CIPU提升了计算性能,做到和高性能硬件电脑同样的效果,比较像云电脑,担忧和云电脑不一样,云电脑是全靠服务器运行,CIPU是提升电脑的性能,如果处理一件很简单的任务,再用云服务器,那就是用大炮打蚊子多此一举了!
以上只是我们容易接触到的场景,我们往宏观了想,阿里云CIPU既然能提高云计算能力,是不是也会对5G商用和民用、新能源车自动驾驶、人工智能、元宇宙等领域带来推动作用呢?这肯定是必然的,这四个领域对计算能力的要求是非常高的,而且是未来发展的大趋势,所以阿里云在这个时候推出飞天云操作系统+CIPU是符合时代发展的,正好处在了一个关键节点,那么CIPU则是一款突破现有芯片体系的产品,所采用的软硬件协同的设计是搭建良好云生态的关键所在!
软件定义并不难理解,就是用软件给硬件赋能,本质就是通过软件编程去实现虚拟化、灵活多样和定制化的功能,说个例子你就明白了,用手机操控智能家居,就是通过软件的编程命令对硬件设备进行控制。
硬件加速又是什么呢?用容易理解的话来说就是计算机把计算量特别大的工作分配给专门的硬件来处理,这样就会加快整个任务的工作效率。它的实现方式有很多种,有基于信号的仿真加速,主要应用于数电、机控等需要信号通信的领域,也有基于可配置的Transformer硬件加速,这个涉及到人工智能、深度学习领域了。
阿里云CIPU对通用计算有怎样的提升?会不会成为高性能计算的技术里程碑? 先表明我的观点:阿里云CIPU绝对会成为高性能计算的技术里程碑!直接看一组数据:CIPU通过全硬件虚拟化和转发加速,存储时延最低30us、IOPS高达300万、存储宽带可达200Gbps,远超市面上所有云产品,还是全球首个把OracleRAC、SAPHANA等高可用数据无缝上云计算,其他的提升请看下图:
我认为成为里程碑的第二个原因,当全球的数据量趋于饱和时,CPU的性能会达到天花板,数据后增长后的处理需求就会难以为继,所以阿里云针对如此推出了软硬融合的CIPU,软件指的是飞天云操作系统,硬件指的是CIPU,简单来说就是通过系统优化和硬件协同,达到处理海量数据的能力。再来看云计算发展历程,第一阶段是分布式技术,通过分布式优化提高计算效率,第二阶段是采用了资源池化技术提高计算性能,这两个阶段都是以CPU为中心,阿里云所推出的飞天云操作系统和CIPU融合,将会成为云计算发展的第三阶段:云操作系统+CIPU体系架构。
其实英伟达在2020年发布的DPU,其原理就是要给CPU减负,包括英特尔在2021年推出的IPU也是试图去提高CPU处理高数据密集型场景的能力,二阿里云推出的CIPU则是将DPU的数据搬迁带宽能力和IPU的虚拟化云化能力融合到了一起,这必将是云计算发展的里程碑!
CIPU适合的业务类型都有一个共同特征:在数据流动中,通过深度垂直硬件协同设计,尽最大可能减少数据移动,以提升计算效率。当然,CIPU的提升可能没想象中那么颠覆式,特定场景下有在30%-80%的性能提升,但云计算这个行业,不就是渐进式创新来的么。从早期的XEN到KVM,从分布式到存算分离,每个细节的创新,都能给IT产业带来叠加式的进步,才有我们今天站在巨人的肩膀上俯视四周。
算力提升可以使人工智能、自动驾驶、智慧城市等进一步发展,不过目前看互联网依然是最大的算力需求行业,占整体算力近 50%的份额,以阿里、腾讯、百度、字节跳动为代表的互联网巨头对算力的需求更加迫切,同时算力的集中部署也使互联网行业成为先进生产力的代表。电信、金融行业信息化和数字化起步较早,是算力应用较大的传统行业,对算力的应用处于行业领先水平;制造业数字化转型仍处于初期,需要更多规模化、普惠型的公共算力基础设施的支持。
预计2023年的趋势将深入挖掘算力在数字政府、工业互联网、车联网、金融科技等创新应用场景下的融合应用,提高算力在医疗、交通、教育等传统行业的应用水平,加快推进算力在更多生产生活场景的应用落地。
首先肯定的是, 云计算中, 可以认为,CIPU将会替代CPU成为元计算的管控和加速中心。
CIPU 全称:Cloud infrastructure Processing Units
是阿里云新推出的, 可以说, 这是以最新的姿态,c闯入云计算3.0时代。
纵观整个新型云数据中心设计的专用处理器, 从功能上,CIPU、DPU、IPU大抵相仿。
在整个云计算行业,其实巨头们都在争夺下一代云计算的标准,也就是说, 谁的元计算应用多、普及率高、 处理速度快, 功能强大,就会是下一个标准。
还记得中国工程院院士,清华大学郑纬民教授对CIPU这样评价: CIPU 完全打破上一代计算架构,是在基础技术上实现了全时间领先的云数据中心处理器。
接下来, 我们就看看CIPU的独特之处: 与CPU和GPU这类通用计算芯片有着显著区别,DPU/IPU/CIPU是典型的应用驱动型芯片。 既然是应用驱动型芯片,软硬件的融合以及对应用场景的理解就至关重要。
阿里云虚拟化技术负责人蒋林泉说: “CIPU是我们根据业务定义的芯片,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机,向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速。我们自研的CIPU能够更精准解决云操作系统中管理、控制、调度,以及部分核心业务加速的问题。”
这里,CIPU架构示意图展示一下, 便于你更快速的理解。
在计算层面,CIPU能够快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。
在不同的场景中,具体如下: - 主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%;
大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。
CIPU与网络的结合,基础带宽从100G升级至200G,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。
你看,这些是不是表现的非常优秀。
这是一种新的方式,通过云基础设施处理器进行云计算的管控和加速的方式。 CIPU(CloudInfrastructureProcessingUnits,即云基础设施处理器)CIPU是一款阿里云自研的新型云数据中心专用处理器,未来将替代CPU成为云计算的管控和加速中心。 据介绍,CIPU具备三大特性:首先,CIPU具备对高带宽物理网络进行“超级”加速的能力,云数据中心可以以CIPU为基础,建设大规模的eRDMA分布式高性能网络,让连接服务器的物理网络实现传输能力的倍增,充分发挥服务器的性能;其次,CIPU对存储设备的读写吞吐能力具备硬件加速能力,在CIPU的加持下,存算分离架构的数据中心可提供空前高速的云盘访问能力;第三,对于不同类型资源的阿里云神龙计算平台来说,CIPU还具有快速接入能力,并能够通过高效整合,将算力的损耗整合降至接近“0”的水平。 正是基于这三大特性,CIPU可以向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上则能接入阿里的飞天云操作系统,将全球数百万台服务器连成一台超级计算机。 事实上,改变以硬件为主导的传统IT体系,从而建立以云为主导的新体系,是每一个云厂商的技术理想。而在当下,这已是实实在在的迫切需求:一方面,以AI为代表的新兴计算场景所需算力爆增。数据显示,自2012年以来,AI训练任务所需要的计算力每3.43个月就会翻一倍,六年以来累计暴涨超过30万倍,远远超过了摩尔定律的极限,以CPU为中心的传统IT体系已无法满足日益增长的算力需求;另一方面,随着自动驾驶、虚拟人等对低延迟、高带宽需求敏感的应用场景增多,用户对于云服务的速度、效率、稳定性都提出了更为极致的要求。 此外,随着云计算应用的快速普及,越来越多应用场景开始从“南北向流量”演进为“东西向流量”,数据中心内部传输的数据量激增,使得大规模数据的传输与搬迁成为限制云计算发展的又一难题。 针对此,阿里云推出了“飞天云+CIPU”的新架构体系,试图解决当下云计算厂商普遍面临的瓶颈问题。
我先说定义: 软硬件融合云计算体系架构是一种新型的云计算架构,主要通过软件定义和硬件加速来实现。
软件定义是指将软件的功能和接口与硬件的实现分离,使得软件可以在多种硬件上运行。这样可以更好地利用硬件资源,提高系统的灵活性和可扩展性。
硬件加速是指利用硬件的特殊功能来提高系统的性能。例如,使用GPU加速深度学习算法,使用FPGA加速网络协议处理等。这样可以更好地利用硬件资源,提高系统的性能和效率。
CIPU,即计算、存储、网络、并行计算单元,是阿里巴巴达摩院提出的一种新型的云计算体系架构。在这种体系架构下,软硬件融合带来了硬件结构的融合,并接入物理的计算、存储、网络资源,通过硬件资源的快速云化实现硬件加速。
CIPU的优势在于可以更好地利用硬件资源,提高系统的性能和效率,为通用计算带来全面提升。此外,CIPU还能够支持更大规模的计算和存储,更高效的数据传输和网络连接,从而使得系统能够应对更高要求的业务场景。
我作为一名开发者,个人觉得CIPU是一种具有重要意义的云计算架构,可能会成为高性能计算的技术里程碑。
2022年6月13日,阿里云正式发布新一代CIPU(Cloud infrastructure Processing Units),这是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代CPU成为云时代IDC的处理核心。
CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。 CIPU在网络、存储、计算方面迈入了一个新的阶段。 如果我们定义好下一代的云,中国云计算就有超车机会。 近年来,企业的数字化转型需要更多的密集型计算,这需要不断提高云计算的低时延、高带宽的需求,这些都是传统CPU为中心的体系架构难以实现的。 以 CPU 为中心的体系架构主要承担计算与控制两个任务,对于云计算来说,它需要管理的服务器规模非常大,以阿里云为例,有上百万台服务器的量。在这个体量下,飞天云操作系统需要把它的控制和计算的逻辑进行重新的定义,单一 CPU 的控制能力是做不到的。
阿里云发布了云数据中心专用处理器CIPU。从CIPU的特性来看,CIPU与计算结合,快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;CIPU与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。 无论是从业务弹性、数据密集型计算还是云边端全场景,CIPU都能满足各种场景需求。 云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。现在是重新定义云的窗口期,如果定义好了,中国就可以在下一个技术时代有自己的一席之地。 作为和水、电一样的公共资源和社会基础设施,云的核心特征是“弹性”和“多租 ”。 弹性,从广义上讲,是让IT能力轻松跟上用户的业务发展;从狭义上讲,则带给用户无与伦比的灵活性。 “弹性”和“多租”并非严格的正交和并列关系,多租是实现极致弹性和极致社会IT资源效率的必要条件之一。 IaaS是计算、存储、网络等三大件的IT资源公共服务化;PaaS主要指数据库、大数据、AI等数据管理平台服务化以及K8s云原生和中间件;SaaS则是以微软Office 365、Salesforce等为代表的软件服务化。 云计算主要是指IaaS云服务,PaaS和SaaS则是IaaS云平台之上的云原生产品和服务;CIPU主要位于IaaS层。 要想实现IaaS计算、存储、网络等IT资源灵活按需供给,其核心特点是资源池化、服务多租、弹性供给以及管理运维自动化等。其背后的核心技术则是虚拟化技术。 IaaS云服务“发现和发掘”了虚拟化技术的业务价值,使得虚拟化技术成为了IaaS云服务的基石;反之虚拟化技术红利让IaaS云服务成为了可能。 CIPU(Cloud Infrastructure Processing Unit,云基础设施处理器),顾名思义,就是把IDC计算、存储、网络基础设施云化并且硬件加速的专用业务处理器。 计算器件、存储资源、网络资源一旦接入CIPU, 就云化为虚拟算力,被云平台调度编排,给用户提供高质量弹性云计算算力集群。 云计算的核心是service(服务化),从而实现用户对IT资源的免运维。而IaaS弹性计算可运维能力的核心是全业务组件的无损热升级能力和虚拟机的无损热迁移能力。 此时涉及到CIPU和云平台底座之间的大量软硬件协同设计。 CIPU必须具备池化能力。通用计算通过CIPU池化技术,显著提升CIPU资源利用率,从而提升成本层面的核心竞争力。 阿里云自研了飞天云操作系统及多款数据中心核心部件,技术家底深厚。基于云平台底座软件,进行深度软硬件垂直整合,推出CIPU,是阿里云的必由之路。 在IaaS领域,云厂商追求“北向接口标准化,IaaS零代码修改,兼容OS和应用生态;同时往下做深基础,进一步追求软硬件深度垂直整合”,这背后的技术逻辑是“软件定义,硬件加速”。
目前的行业前景还是看好上云业务的,首先从成本和安全方面考虑,上云确实比自建机房方便很多,可能有的人感觉核心配置会差很多,运行效率和算力跟不上,无法满足一些需要大量算力和业务订单的企业,所以阿里云推出的CIPU是为新型云数据中心量身定制的专用处理器,能与飞天云操作系统结合实现软硬一体化,通过硬件提供高性能,通过软件保障灵活性,在加速和管理计算资源方面更胜一筹。它更像是DPU和IPU的综合体,既能解决数据迁移带宽的问题,又能云化、虚拟化管控数据中心。 阿里云自研的飞天云操作系统把分布在全球的上百万台服务器变成一台超级计算机,单集群可达10万台规模、千亿级文件数、EB级存储空间。而CIPU的职责就是协助飞天云操作系统对这上百万台服务器进行统一纳管和整体编排、调度。 “数据中心的计算、存储和网络一旦接入CIPU,资源即可被高效地云化管理,通过CIPU的硬件加速,将实现超高的性能。”阿里云智能总裁张建锋说道。具体来看,CIPU与网络结合,可对高带宽物理网络进行硬件加速,建设大规模的弹性RDMA(远程直接数据存取)分布式高性能网络(时延最低可达5微秒);CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘(每秒读写次数最高可达300万,长尾时延降低50%);CIPU与计算结合,快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。 CIPU是云服务器的未来,主要也将为现在已经上云的企业做一次飞速变革,而且如此强有力的保障,也会促使更多还在犹豫上云的企业吃一颗定心丸。
CIPU软件定义硬件加速的方式给云计算带来新的概念,可以看到将融入到云计算软件硬件各个部分,让云计算有不同的开发和应用方式,部分工作可能变复杂,部分工作可能变简单,在许多的测试和修改过程中,可以比较修改前后的差异选择更有效的方式。科学计算或游戏等场景对计算要求较高,有大量的数据需要处理,如果只用软件计算,效率没有使用硬件更好,CIPU软硬件结合,可以使用硬件处理一些计算过程,增加了系统的算力,让应用软件的使用更方便
CIPU 是阿里云自主研发的云基础设施处理器,在数据中心内部替代 CPU 成为云计算体系架构的中心,是为飞天云操作系统设计的专用处理器。CIPU 向下云化管理数据中心硬件,并对计算、存储和网络资源进行加速,向上接入飞天云操作系统。
业务层的需求变化贯穿了云计算的发展历程。 阿里云基础产品首席架构师黄瑞瑞将云计算的发展分成分布式技术阶段、资源池化技术阶段和如今的 CIPU 阶段。 高性能、低延迟、低成本、更安全、更稳定也已经成为云计算既定的技术大方向。
所谓软件定义,就是用软件去定义系统的功能,用软件给硬件赋能,实现系统运行效率和能量效率最大化。目前业界主要的硬件加速方式分为两种,即FPGA和专用的模拟器(emulator)。与第三方提供商提供的DPU/IPU不同,CIPU不仅具有软件定义和模块加速功能,更为重要的是能够与阿里云自家的飞天系统更紧密地结合,搭建一套完整的云体系架构。我相信CIPU一定会成为高性能计算的技术里程碑。
CIPU的最大意义不止于性能,作为CIPU背后的云厂商,阿里云此番技术发布,也扣上了云计算技术国产化在新阶段的重要一环,它不仅代表着我国国产云厂商的技术体面,更有望打破以CPU为中心的传统云计算体系架构,定义新一代云计算基础技术,CIPU,云技术的一小步,阿里云的一大步,国产云的大跨步。
我认为视频处理、区块链、人工智能相关等行业对算力都有较高要求,这些行业都是计算密集型的,对于及时运算要求高、量级大。 而且现在越来越多行业都在互联网化、智能化,算力增幅明显,而对于算力需求的大幅度提升需要硬件支持,这肯定是对芯片行业带来了更好的发展机遇,有越来越大的需求和越来越多样的场景提供机会机遇给芯片行业;但现在芯片行业已经是有固定格局,几个“超级公司”几乎垄断市场,从历史上也存在较高的技术壁垒,想要从中突破也需要面对极大的挑战。
可能还是有点用吧,我是做别的方向的,简单看了一下CIPU相关的文档。感觉是服务器很多的时候资源管理存在各种问题,比如延时之类的,CIPU从底层解决了这些问题。这个想法应该是挺好的,因为很多现实领域确实需要这样的技术。希望下一步CIPU能发展的越来越好吧。
在10年前,云计算刚刚起步的时候,CPU运行虚拟化软件(hypervisor)的开销,又称虚拟化税,可达到50%,网络、存储性能的损耗也非常大,此时的成本是非常巨大的。之后,通过对虚拟化软件的不断优化,这个开销逐步降低至10%以下,但这种基于CPU体系架构的软件优化已经没有进一步的发展空间了。 软件定义,硬件加速指的是硬件加速的过程是参考hypervisor软件的实现过程,软件定义硬件。CIPU作为云计算体系架构的中心,不仅仅是降低虚拟机开销,更是与飞天操作系统结合起来,加速计算、网络、存储。 基于CIPU和飞天的新一代云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能,将成为高性能计算的技术里程碑。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在探讨AI生成海报与人工手绘哪个更戳我这个问题时,我实际上是在衡量两种不同创作方式所带来的情感体验和艺术价值。 AI生成海报,作为现代科技的产物,确实有其独特的魅力。它能够快速地根据预设的算法和模板,生成大量风格各异、内容丰富的海报。AI海报的优点在于其高效、可定制化和多样性。无论是需要哪种风格、哪种主题的海报,AI都能在短时间内生成多个选项,供人们选择。这种高效性在快节奏的现代生活中显得尤...
在AI生成工具刚兴起那会,我用它生成过一些段子,但这些生成的段子在某些情况下确实能够引起观众的笑声,但它们的幽默程度和受众范围往往有限。 AI的“幽默”是否能打动人,这是一个非常主观的问题。有些人可能会觉得AI生成的段子新颖有趣,而有些人则可能觉得它们缺乏真正的情感和深度。这主要取决于个人的审美和幽默感。 总的来说,“AI+脱口秀”这一组合具有巨大的潜力,但也面临着诸多挑战。AI可以辅助喜剧...
自编译 意识形态在于自我更新
我是Java开发,个人对AI软件的看法是开放的,AI硬件除了手机、音箱还没尝试过其他的,如果是我: 我会尝试领养一只AI宠物,它没有真实宠物的一些问题(喂养、清理、生病)等,且比真实宠物要更聪明。 但是也有AI宠物无法满足的地方(情感陪伴、生老病死的过程、依赖感)由于是机械的,就缺少了这些感性的东西。 我还是渴望有一个AI宠物的。
在AI时代,大数据技术的未来肯定是越来越智能,越来越快。Apache Flink作为一个强大的流处理框架,我觉得它未来的发展趋势应该是更高效、更易用。 我期待它能更好地和AI技术结合,让数据处理不仅快速,还能智能预测和分析。这样,无论是企业还是开发者,都能用Flink轻松处理海量数据,快速得到有价值的洞察。 简单来说,就是希望Flink能成为AI时代数据处理的超级英雄,让大数据发挥出更大的价值。