CIPU落地专有云:是“小众需求”还是“机会之门”?

简介: CIPU落地专有云,简单的一句话,背后却是一个不简单的故事。

引言:
2022年11月,云栖大会主论坛,阿里巴巴集团副总裁、阿里云智能基础产品事业部负责人蒋江伟分享了阿里云专有云的一项新进展 —— CIPU落地飞天企业版。在分析师峰会上,阿里巴巴集团研究员、阿里云专有云总经理刘国华也向分析师们详细介绍了CIPU在专有云商用的核心技术指标。

CIPU落地专有云,简单的一句话,背后却是一个不简单的故事。

更新图.jpg

蒋江伟在2022云栖大会技术主论坛分享CIPU落地飞天企业版的消息

索尼-分析师.jpg

刘国华向分析师们介绍CIPU在专有云商用的核心技术指标

让阿里云骄傲的CIPU
时间拉回到5个月前,2022年6月阿里云峰会上,阿里云智能总裁张建锋献出“大招”,首次推出CIPU云基础设施处理器(Cloud Infrastructure Processing Units),这是一套为云而生的全新计算体系架构。

罗马不是一天建成,这一架构先从「神龙」开始,然后通过「洛神」解决网络性能瓶颈问题,最后「盘古」实现对存储资源的云化加速,是三大计算核心组件全面加速的成果。

云计算优势众多,但是虚拟化带来的资源损耗过大,一度是困扰云服务商的“卡脖子问题”。在CPU通用架构之下,云厂商在软件层面的优化早已走到尽头,于是转身开始从硬件侧攻克。在2017年10月,阿里云神龙横空出世,通过软硬一体化思路来解决虚拟化开销问题,比亚马逊AWS的Nitro架构早了一个月。

淮南为橘,淮北为枳?
CIPU对于阿里云来说,是一个强有力的竞争门槛。早期的神龙架构通过将虚拟化损耗不断降低,在部分场景下甚至可以实现超越物理机的性能,帮助阿里云降本增效,在公共云的红海市场中,以技术加深了市场护城河。

在公共云上纵横披靡的CIPU,是否适合专有云呢?虽然阿里云专有云一直和公共云技术架构同源,采用相同的飞天云计算操作系统,但是二者服务的客户群体却有很大区别。专有云作为一种部署形态,一般是政企大B客户通过资产自持的方式,建立自己的云计算数据中心。

除了少数需要对外提供行业云服务的政企外,很多政企的云平台只需要面向内部提供平台侧服务,不需要面向外部提供租户侧服务。也就是说,资源反正都已经买回家了,虚拟化损耗问题虽然也是问题,但是远没有稳定、弹性、性能等问题重要。

阿里云的大招CIPU,对于专有云,究竟是食之无味的鸡肋,还是能撬动政企市场的神之一手?

CIPU一小步,核心应用上云的一大步
一项技术是否能够撬动市场,很大程度上取决于这项技术是否能切中客户的核心需求。

对于政企客户而言,他们对于云平台的痛点在哪里?为什么有些政企迟迟不将核心应用从传统架构迁移到自家的云平台?又是为什么,很多政企客户即使建了云,使用率也并不高?

两个字概括原因:运维。

与公共云不同,在专有云的部署形态下,运维主体从云厂商迁移至政企自身。政企CIO要面临的核心课题,就是把IT基础设施运维好,能稳定支持业务的发布、变更和运行。而现在,政企需要同时维护好两套端到端完全不同的技术栈,这是非常困难的。特别是在运维压力最大的IT基础设施领域,传统专有硬件基础上的各种封闭系统,与软件化服务化IaaS、DBaaS等系统,在技术架构、运维方法、生态体系方面,差异巨大。这种割裂的方式,带来了很高的复杂性和挑战,也越来越难以持续。

这里可能会有疑问,为什么要维护两套技术栈呢?既然云计算是未来,为什么不把所有的业务都放在云上呢?

不是不想,而是太难。

过去30年,政企借助传统软硬一体、存算分离的集中式数据库架构,支持保障核心业务系统的建设和发展。之后,随着数字化转型大潮涌来,政企也在发展互联网型的创新业务,数据量急剧增多,数据库也逐渐从Shared Mem/Disk的集中式架构,向Shared Nothing分布式架构演变。

互联网型的创新业务往往是从0到1使用云原生的方式开发建设,没有历史包袱,上云步伐非常轻快。然而,还有大量的核心生产业务和传统业务,仍然停留在基于单台物理机本地盘的数据库中。如果要这些业务和互联网业务一样走向分布式架构,那就要求政企对大量应用架构配套进行分布式重构。

可是许多政企的传统应用负载积累了几十年,弹性扩展要求不高,大多是外采或外包定制开发,政企自己的软件开发运维人员很少,很难快速实现全面的云原生化重构。

如果没有好的解决方案,政企的大量传统业务就会迟迟停留在传统IT基础架构上,只有少量的互联网业务在云平台上运行。这就导致了上文所说的“运维两套技术栈”的难题。

政企客户不想大跃进,需要陪伴式一步一步前行
2B IT市场的发展,不是一蹴而就的,而是陪伴式的。既然政企客户传统应用快速全面PaaS云原生重构不现实,那是不是可以有另一种解题思路,让客户只对传统应用做少量云就绪化改动,通过IaaS平迁的方式上云呢?

神龙+VPC网络+全闪云盘的新一代软硬一体、存算分离架构,配合其上部署的、封装了分布式技术,对客户提供100T容量、100万QPS的集中式大型数据库PolarDB ,就可以很好地满足这一要求,使政企不一定都要做云原生分布式改造,也能进行IaaS托管式平迁上云。

阿里云专有云首席架构师张晓丹,一直坚信CIPU对于政企客户的巨大价值。因为他认为,Back to basic,回归技术本源,云计算的核心本质是池化共享、按需服务、敏捷弹性。之前专有云上的各个云产品分散在各自的物理机上,无法形成共池,弹性也受损。如果能够借助VPC内存算分离的ECS,把计算、存储、网络三大件分别池化服务化,再带动上层产品池化服务化,就能为云产品带来更好的按需服务敏捷弹性、与客户应用共池复用、最小交付部署起步、增加容灾备份企业特性等好处。但是,云产品全面上ECS,也会带来存算分离时延大,相比物理机虚拟化开销更大的问题。

作为CIPU的前身,神龙软硬一体解决方案的技术本质,就是用软件定义硬件卸载的新一代软硬一体、存算分离架构,取代之前硬件定义系统集成的传统软硬一体、存算分离架构,让ECS存算分离架构容量吞吐量更大,单位成本更低,同时保证弹性,让用户能敏捷获取资源。

理论合理,回归现实,CIPU在专有云的表现究竟如何?

走向政企之前,需要用事实和数据说话
政企客户需要了解实现的过程,看到真实的测试数据甚至实践案例,才可能对新技术产生信任。

2020年,一场技术原型验证在阿里云团队默默开始了,张晓丹和架构师林泉一起选定了3个典型场景。尽管一开始的测试结果让所有人大失所望,好在转机很快到来,一项刚刚出炉的软件加速技术像是关键补给一样让CIPU的测试“鲤鱼跃龙门”,达到整体性价比刚好超越传统架构的及格水平。随着后续更新一代飞天神龙、硬件加速新技术的推出,CIPU在专有云的整体性能和性价比也就像“开挂”了一样“一骑绝尘”,相对传统架构,在性价比上有了大幅的提升,在容量吞吐量上甚至有几倍的提升。

在家里表现优异还不够,还需要到客户的真实业务场景中接受考验。于是,阿里云和几家国有大行一同启动科研共创,基于金融客户真实的使用场景,以及大量的客户交流反馈,在两个月的实验之后,终于锁定了CIPU在专有云的落地场景。

2021年的春天,阿里云专有云掌门人刘国华很明确地告诉团队,我们要在专有云的飞天企业版上,落地CIPU。2022年5月,CIPU在飞天企业版正式发布,刘国华和他的团队,做到了。

CIPU,飞天企业版请你释放实力
CIPU技术在专有云刚落地,就收到了国内某大型头部金融客户的需求,这一客户之前就在阿里云公共云上使用CIPU,希望在专有云上也能实现同样的高性能和高稳定性。

结果让客户非常满意。数据库在专有云上部署的场景中,CIPU不仅可以提供存算分离的弹性数据库架构,同时可显著提升云上数据库的性能。针对Polar DB和客户在ECS上自建数据库两个应用场景,典型使用场景的性能提升可达到30%-50%,整体时延可降低40%-50%。

在高性能之外,专有云CIPU对于政企客户另一大吸引力是拥有极致稳定的核心优势。很多金融客户对稳定性要求很高,甚至一些大型银行机构对数据库在云平台上的运行要求是“零毛刺”。之前使用传统虚拟化技术时,当并发量较高时会产生显著的资源争抢,导致数据库/云原生应用运行时性能不够稳定。通过CIPU,飞天企业版可以实现数据库所在的计算实例与虚拟化内核之间的“0”资源争抢,完全消除因此带来的运行态毛刺。直观来说,就算进行上万笔交易,也不会有一笔交易被卡住。

目前,飞天企业版CIPU解决方案已经在某大型金融集团和国内某大行投入使用,从而拥有了大规模标准化交付的竞争力优势。这一方面得益于CIPU核心技术在公共云上的长期验证,方案被打磨得更加成熟,另一方面也得益于专有云不断提升的可运维和交付的产品化能力。

通往未来的必经之路,道阻且长
虽然CIPU在专有云上的实力不容质疑,但是依然受到了一些政企客户的怀疑。软硬一体使得政企担心被一家厂商绑定的风险,客户说:“我们不想用十年时间刚刚送走传统IT厂商,又来了一个可能再次绑定我们的阿里云”。

面对这些质疑,张晓丹一直在各种场合反复布道:软硬一体并不代表系统封闭。首先,CIPU可以适配不同的服务器,并且向上也在开放适配数据库/大数据/PaaS等多种解决方案,甚至客户可以自己采购类似硬件,自己设计开发DIY类似的架构(只是ROI不好)。在价格方面,CIPU是透明的,这个成本占服务器总成本的比例小于对服务器总体容量性能的提升。这里,还没有算上时延大幅降低、企业级特性全面增强的红利。此外,行业也有多供应商提供解决方案选择,是行业普遍认同的技术发展方向。客户还可以通过建设异构多云,防止供应商绑定,不会出现大机、小机独家垄断的局面。

一项新的技术,可能会受到市场的质疑,但是技术的发展趋势,不会就这样被打断。随着向上向下生态的不断拓展,CIPU的优势会被不断累积放大。

软硬一体的道路,现在已经成为了行业共识。

这是一条通往未来的必经之路,可以预见的是依然很远很长,好在阿里云专有云,已经迈出了这一步。

机会之门,终究会为有准备的人打开
2022年11月云栖大会专有云技术和应用实践论坛上,专有云产品负责人谢宁把飞天企业版的核心竞争力概括为“一体两翼”,其中“一体”就是指,专有云和公共云同根同源,充分利用公共云的技术红利。

而CIPU在专有云的落地,不仅是验证专有云竞争力的一个例子,还打开了未来更多可能性的大门。政企客户非常在意稳定,先进的技术可以在公共云上完成打磨变得成熟之后,落地专有云,以更好地服务政企。

刘国华在对内部述职的时候说到,他最欣慰的是,做专有云这几年来,没有让团队走弯路,没有让客户做小白鼠。也是因为一直以来,阿里云专有云平台的核心技术架构始终坚持与公共云保持一致,最大限度复用公共云技术研发实践红利,避免了产品技术路线分支可能的推倒重来,保持了产品技术架构稳定、平滑升级和持续发展。

而回顾整个CIPU落地专有云的始末,首席架构师张晓丹说他感觉最挑战的时刻,就是在项目开展最初,需要向各方反复宣讲未来的场景价值,取得广泛的共识。同时,也要引导大家,选择一起为未来投资。

如果一定要问是什么让大家凝聚起来,最终做成了这件事,那应该就是一种相信。

在阿里云,大家相信专有云是陪伴政企数智创新的同行者,必须坚定地投入专有云;专有云更相信,公共云是专有云背后的坚实依靠,只有不断充分释放公共云红利,才能更好地服务政企,拥有确定性的未来。

而未来的机会之门,终究会为有准备的人打开。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
存储 云安全 人工智能
有多难?直击传统行业的“云上再创业”之路
有多难?直击传统行业的“云上再创业”之路
620 0
有多难?直击传统行业的“云上再创业”之路
|
达摩院 运维 5G
云化5G再提速!阿里达摩院研发超轻量核心网,让普惠5G走进中小企业
11月5日,2022杭州云栖大会上,阿里达摩院XG实验室自研超轻量5G核心网设备亮相,升级多项云化能力,向5G云网融合迈出了扎实一步。使用XG核心网设备,可大幅降低5G网络部署及运维压力,整体成本下降70%,功耗低至100w,有望帮助更多中小企业快速用上5G。
676 0
云化5G再提速!阿里达摩院研发超轻量核心网,让普惠5G走进中小企业
|
Web App开发 缓存 Cloud Native
Serverless 年终技术盘点 :工业、学术、社区遍地开花,国内厂商迅速卡位
预计 2021 年,将会有大量主流企业的核心应用,从原来的主机架构迁移到 Serverless 架构。
|
存储 Cloud Native 关系型数据库
厚积薄发:探寻磐久服务器M系列研发之路
从云栖首发到两次电商流量洪峰考验,阿里云加大底层基础技术的自研逻辑?磐久服务器M系列有何独特技术优势?
厚积薄发:探寻磐久服务器M系列研发之路
|
存储 达摩院 安全
阿里云底层自研技术迎来大爆发,倚天、磐久等多款产品接连发布
今天,2021杭州·云栖大会正式开幕。大会上,阿里巴巴正式发布自研云芯片倚天710,这是阿里云推进「一云多芯」策略的重要一步,也是阿里第一颗为云而生的CPU芯片,将在阿里云数据中心部署应用。
1477 0
阿里云底层自研技术迎来大爆发,倚天、磐久等多款产品接连发布
|
存储 运维 Kubernetes
稳若磐石的「云上奥运」背后,是云计算新界面的崛起
今年奥运会首次采用阿里云支撑全球转播,这是奥运迈入数字时代的重要一步。对于这届特殊的奥运会来说,技术至关重要。我们相信,这次创造历史的实践,将为未来支撑更多体育爱好者把“云观赛”转变为参与国际体育赛事的主要方式,起到里程碑的作用。
稳若磐石的「云上奥运」背后,是云计算新界面的崛起
|
编解码 弹性计算 网络虚拟化
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
本文主要介绍阿里云网络产品从无到规模应用的 10 年过程中,云网络技术平台洛神的发展历程。
5080 2
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
|
物联网 区块链 云计算
云生态被低估了吗?
探讨云服务再生的可能性
云生态被低估了吗?
|
编解码 弹性计算 网络安全
一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘!
逍遥子曾说,对阿里人来说「打仗是最好的团建,参加过双 11 的叫战友」,同样,参加过多次双 11 考验的系统技术都会成为真正意义上的基础设施,阿里云飞天系统的云网络平台洛神就是如此。
|
机器学习/深度学习 弹性计算 运维
上下求索,白“云”苍狗(三):2015到2019,从5到70,从0到100万,技术推动业务的云实践,我创业的这4年
从2015年到2019年,业务DAU从0到100万,团队从5人到70人,讲述技术人的创业之路,解读如何从技术推动业务,分享作为CTO的心路历程,一同感受创业的五味杂陈。