神龙架构没那么难理解—图解世界领先的阿里云神龙架构(一)缘起

简介: 本文为神龙架构没那么难理解—图解世界领先的阿里云神龙架构的第一篇,介绍的是虚拟化技术的瓶颈问题,解决这个瓶颈问题是发明神龙架构的出发点

作者:朱祺 阿里云全球最有价值专家

1 概述

1.1 神龙架构的特点

阿里云官方文档对于神龙架构的描述如下:
保留了普通云服务器的资源弹性,并因嵌套虚拟化技术让弹性裸金属服务器保留了物理机的体验。

1.2 理解上的难点

同时拥有云服务器的资源弹性和保留了物理机体验的特点容易让用户在需要深入了解神龙架构时产生一个疑问:神龙架构到底是虚的还是实的,如果虚实融合又怎么来理解什么是虚实融合?通过什么手段做到的?

1.3 本文重点说明的问题

结合以上神龙架构的特点和理解上的难点,本文详细的对于神龙架构进行研究分析,说明神龙架构是如何做到同时拥有云服务器的资源弹性和保留了物理机体验的目标的。

2 为什么需要发明神龙架构

2.1 以搬砖为例说明虚拟化技术的特点

把物理机变成虚拟机的这个技术,就是“虚拟化”。比如我家里装修有100块砖需要搬运,邻居家也在装修同样有100块砖需要搬运,我们各请了50个搬运工,当工人到达时发现邻居家的主人在睡觉,因此他家的50个工人只能等他睡醒再搬砖,我家请的50个工人则可以直接帮我开始搬砖,情况如下图所示:
image.png
正好两家的工人来自于同一个公司于是包工头过来看了一下,发现邻居家的工人在空闲状态觉得效率很低。于是决定既然邻居家的工人目前空闲于是一起来帮我家搬砖。和我商量费用并不增加,工人增加50个,我自然非常开心,觉得多给了我家50个工人。于是邻居家的工人也过来开始帮我家搬砖如下图所示,我们称这个100个工人为计算节点:
image.png
包工头心里在想一个事情,他马上需要去其他工地,现在100个工人都在帮我家搬砖,因此进度很快,但是邻居万一睡醒了也要开始搬砖怎么办,于是他抽了一个工人甲出来看着邻居家动静,一旦邻居家醒了需要开始搬砖,则把暂时帮我家搬砖的工人还给他并且工人数量至少50个。
于是甲离开了搬砖行动,专门看着邻居家主人防止他突然醒过来,帮我家搬砖的工人数目前为99个。这个负责关心邻居家主人睡觉情况并负责后续把工人还给他的甲,我们称他为管理节点。
image.png
邻居家主人睡醒了,甲于是立即从我家将50个工人安排到邻居家开始搬砖,同时和我商量,因为之前我家搬砖的劳动力多了一倍,因此1000块砖被搬了只剩50块了,而邻居家的砖还是1000块,因此除了邻居雇佣的50个工人外能否我家只留5个工人,我自己雇佣的45个工人也帮邻居家搬砖,我欣然同意,因此两家搬砖的工人数再一次改变如图所示:
image.png
这个整个过程即为弹性计算的本质,前提即是虚拟化,如果缺少了虚拟化技术,代表我和邻居家雇佣的工人来自于两个公司,没有人来统筹决定每家搬砖的工人数,因此即使邻居在睡觉,他雇佣的工人空闲着也无法过来帮我搬砖,能够做到搬砖的工人灵活调配的前提就是将两家人家雇佣的工人进行统筹考虑再进行分配。对于用户的好处在于,我和邻居家都有1000块砖要搬,但是搬砖的时间不同,我在搬砖的时候他在睡觉而他睡醒需要搬砖的时候我家的砖已经快搬完了,同样100个工人的劳动力在不同的时间段里被我们用到了极致。

2.2 虚拟化技术的瓶颈

从以上搬砖的例子中可以发现,因为工人甲负责协调我和邻居家搬砖的工人安排因此他本身不再负责搬砖,也就是100个劳动力中抽调了1个工人的劳动力来做管理工作,实际搬砖的劳动力为99个。按照原来雇佣的劳动力,我家雇佣了50个工人,邻居家雇佣了50个工人,总的劳动力为100人,因此实际搬砖的劳动力少了1个,但因为我和邻居家搬砖时间的错开并且以我们的感受都享受到了远大于50个工人的劳动力(实际我家99个,邻居醒来后他家为94个)因此满足我们的需求,也就并不太在意100个工人中有1个来作为协调我们两家工人数的管理人员。隐患在于如果我家砖搬完了,邻居家的搬砖工人上升到99个,他发现需要再快一点,要求100个工人搬砖,这时候我和邻居将同时发现劳动力因为有人去做管理工作而少了一个,我们两家总共花了100个工人的钱,却总共只能享受到99个工人的劳动力。
事实上这1个管理人员确实是整个体系中无法解决的瓶颈,代表只要采用虚拟化和弹性计算,就代表100个劳动力必须选择1个管理人员,实际上只能有99个劳动力进行搬砖。反映到云计算上就是只要物理服务器采用虚拟化技术,就必须配置管理节点,因此单台物理服务器所提供的计算力在原来的基础上需要打折扣,造成物理服务器基础上采用虚拟化技术后生成的云服务器的计算性能必然比物理服务器要差。虽然用户因为云服务器集群的弹性计算功能未必能感受到。
这个瓶颈原来在云服务提供商中都存在,似乎成为了必然,因为觉得没有办法解决因需要管理节点而造成的总计算力损失因此也没有云服务商去讨论深究这个问题。而阿里云神龙架构即破天荒的在这个瓶颈问题上开始动刀子,想做到的目标就是既然100个工人搬砖,就要全部搬砖,但同时也需要有手段来管理和控制我家和邻居家不同时间搬砖的工人数。

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
存储 人工智能 分布式计算
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
10月20日,2021年杭州云栖大会上,阿里云发布第四代神龙架构,升级至全新的eRMDA网络架构,是业界首个大规模弹性RDMA加速能力。
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
|
存储 资源调度 监控
|
存储 弹性计算 人工智能
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
|
存储 弹性计算 安全
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第9代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
|
安全 数据处理 云计算
阿里云神龙架构的背景
阿里云神龙架构的背景
支付宝提现方案
说明   首先使用支付宝接口实现提现功能,需要使用到【单笔转账到支付宝账户接口】   大家需要转变一个思路,单笔转账接口可以转账给个人支付宝账户,对于用户而言收到商家转账就是提现成功。所以我们可以针对这个接口来说,转账就是提现。
1698 12
|
弹性计算 安全 虚拟化
万字干货分享 | 阿里云CIPU技术解析
2022年6月,阿里云发布了云基础设施处理器CIPU(Cloud  Infrastructure Processing  Unit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这个全新体系架构下,CIPU向下对数据中心计算、存储、网络等底层基础设施快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机,实现资源的灵活编排和调度,给用户提供高质量弹性云计算算力集群。
万字干货分享 | 阿里云CIPU技术解析
《阿里云产品手册2022-2023 版》——第四代神龙架构
《阿里云产品手册2022-2023 版》——第四代神龙架构
510 0
|
数据采集 机器人 BI
伙伴客户案例|阿里云RPA携手苏州好的全面提升大型汽车制造企业工作效率(三)
RPA全称机器人流程自动化(Robotic Process Automation),是一种新兴的“数字劳动力”,可以替代或辅助人完成规则明确的重复性劳动,大幅提升业务流程效率,实现企业业务流程的自动化和智能化,从而降本增效。目前,RPA解决方案的应用场景几乎涵盖了所有行业,包括银行、保险、制造、零售、医疗、物流、电子商务甚至政府和公共机构。
伙伴客户案例|阿里云RPA携手苏州好的全面提升大型汽车制造企业工作效率(三)
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀