神龙架构没那么难理解—图解世界领先的阿里云神龙架构(一)缘起

简介: 本文为神龙架构没那么难理解—图解世界领先的阿里云神龙架构的第一篇,介绍的是虚拟化技术的瓶颈问题,解决这个瓶颈问题是发明神龙架构的出发点

作者:朱祺 阿里云全球最有价值专家

1 概述

1.1 神龙架构的特点

阿里云官方文档对于神龙架构的描述如下:
保留了普通云服务器的资源弹性,并因嵌套虚拟化技术让弹性裸金属服务器保留了物理机的体验。

1.2 理解上的难点

同时拥有云服务器的资源弹性和保留了物理机体验的特点容易让用户在需要深入了解神龙架构时产生一个疑问:神龙架构到底是虚的还是实的,如果虚实融合又怎么来理解什么是虚实融合?通过什么手段做到的?

1.3 本文重点说明的问题

结合以上神龙架构的特点和理解上的难点,本文详细的对于神龙架构进行研究分析,说明神龙架构是如何做到同时拥有云服务器的资源弹性和保留了物理机体验的目标的。

2 为什么需要发明神龙架构

2.1 以搬砖为例说明虚拟化技术的特点

把物理机变成虚拟机的这个技术,就是“虚拟化”。比如我家里装修有100块砖需要搬运,邻居家也在装修同样有100块砖需要搬运,我们各请了50个搬运工,当工人到达时发现邻居家的主人在睡觉,因此他家的50个工人只能等他睡醒再搬砖,我家请的50个工人则可以直接帮我开始搬砖,情况如下图所示:
image.png
正好两家的工人来自于同一个公司于是包工头过来看了一下,发现邻居家的工人在空闲状态觉得效率很低。于是决定既然邻居家的工人目前空闲于是一起来帮我家搬砖。和我商量费用并不增加,工人增加50个,我自然非常开心,觉得多给了我家50个工人。于是邻居家的工人也过来开始帮我家搬砖如下图所示,我们称这个100个工人为计算节点:
image.png
包工头心里在想一个事情,他马上需要去其他工地,现在100个工人都在帮我家搬砖,因此进度很快,但是邻居万一睡醒了也要开始搬砖怎么办,于是他抽了一个工人甲出来看着邻居家动静,一旦邻居家醒了需要开始搬砖,则把暂时帮我家搬砖的工人还给他并且工人数量至少50个。
于是甲离开了搬砖行动,专门看着邻居家主人防止他突然醒过来,帮我家搬砖的工人数目前为99个。这个负责关心邻居家主人睡觉情况并负责后续把工人还给他的甲,我们称他为管理节点。
image.png
邻居家主人睡醒了,甲于是立即从我家将50个工人安排到邻居家开始搬砖,同时和我商量,因为之前我家搬砖的劳动力多了一倍,因此1000块砖被搬了只剩50块了,而邻居家的砖还是1000块,因此除了邻居雇佣的50个工人外能否我家只留5个工人,我自己雇佣的45个工人也帮邻居家搬砖,我欣然同意,因此两家搬砖的工人数再一次改变如图所示:
image.png
这个整个过程即为弹性计算的本质,前提即是虚拟化,如果缺少了虚拟化技术,代表我和邻居家雇佣的工人来自于两个公司,没有人来统筹决定每家搬砖的工人数,因此即使邻居在睡觉,他雇佣的工人空闲着也无法过来帮我搬砖,能够做到搬砖的工人灵活调配的前提就是将两家人家雇佣的工人进行统筹考虑再进行分配。对于用户的好处在于,我和邻居家都有1000块砖要搬,但是搬砖的时间不同,我在搬砖的时候他在睡觉而他睡醒需要搬砖的时候我家的砖已经快搬完了,同样100个工人的劳动力在不同的时间段里被我们用到了极致。

2.2 虚拟化技术的瓶颈

从以上搬砖的例子中可以发现,因为工人甲负责协调我和邻居家搬砖的工人安排因此他本身不再负责搬砖,也就是100个劳动力中抽调了1个工人的劳动力来做管理工作,实际搬砖的劳动力为99个。按照原来雇佣的劳动力,我家雇佣了50个工人,邻居家雇佣了50个工人,总的劳动力为100人,因此实际搬砖的劳动力少了1个,但因为我和邻居家搬砖时间的错开并且以我们的感受都享受到了远大于50个工人的劳动力(实际我家99个,邻居醒来后他家为94个)因此满足我们的需求,也就并不太在意100个工人中有1个来作为协调我们两家工人数的管理人员。隐患在于如果我家砖搬完了,邻居家的搬砖工人上升到99个,他发现需要再快一点,要求100个工人搬砖,这时候我和邻居将同时发现劳动力因为有人去做管理工作而少了一个,我们两家总共花了100个工人的钱,却总共只能享受到99个工人的劳动力。
事实上这1个管理人员确实是整个体系中无法解决的瓶颈,代表只要采用虚拟化和弹性计算,就代表100个劳动力必须选择1个管理人员,实际上只能有99个劳动力进行搬砖。反映到云计算上就是只要物理服务器采用虚拟化技术,就必须配置管理节点,因此单台物理服务器所提供的计算力在原来的基础上需要打折扣,造成物理服务器基础上采用虚拟化技术后生成的云服务器的计算性能必然比物理服务器要差。虽然用户因为云服务器集群的弹性计算功能未必能感受到。
这个瓶颈原来在云服务提供商中都存在,似乎成为了必然,因为觉得没有办法解决因需要管理节点而造成的总计算力损失因此也没有云服务商去讨论深究这个问题。而阿里云神龙架构即破天荒的在这个瓶颈问题上开始动刀子,想做到的目标就是既然100个工人搬砖,就要全部搬砖,但同时也需要有手段来管理和控制我家和邻居家不同时间搬砖的工人数。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
存储 弹性计算 负载均衡
云计算演进问题之CIPU与神龙计算的关系如何解决
云计算演进问题之CIPU与神龙计算的关系如何解决
|
3月前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
6月前
|
弹性计算 编解码 供应链
倚天经典客户案例|开发者分享会
2022年2月,基于倚天弹性计算的产品实例正式对外进行邀测。经过大半年的时间,在2022年云栖大会上,ECS倚天实例正式商业化。在宣布倚天商业化的同时,已经经历了阿里巴巴电商、双十一等流量洪峰的考验,包括邀测的内外部头部客户业务。
|
弹性计算 人工智能 网络协议
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control )算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
|
弹性计算 安全 虚拟化
万字干货分享 | 阿里云CIPU技术解析
2022年6月,阿里云发布了云基础设施处理器CIPU(Cloud Infrastructure Processing Unit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这个全新体系架构下,CIPU向下对数据中心计算、存储、网络等底层基础设施快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机,实现资源的灵活编排和调度,给用户提供高质量弹性云计算算力集群。
|
弹性计算 人工智能 算法
阿里云徐成:CIPU最新秘密武器-弹性RDMA的技术解析与实践|阿里云弹性计算技术公开课直播预告
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control )算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。
《阿里云产品手册2022-2023 版》——第四代神龙架构
《阿里云产品手册2022-2023 版》——第四代神龙架构
273 0
|
弹性计算 Cloud Native 云栖大会
倚天专场丨极致性能表现,6大专家为你解答倚天实例背后的技术奥秘
11月5日,「倚天开启云原生算力新时代」主题专场,值得期待。
倚天专场丨极致性能表现,6大专家为你解答倚天实例背后的技术奥秘
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀