神龙架构没那么难理解—图解世界领先的阿里云神龙架构(二)神龙出世

简介: 本文为神龙架构没那么难理解—图解世界领先的阿里云神龙架构的第二篇,介绍的是神龙1.0版本即刚问世时的特点和解决的问题

作者:朱祺 阿里云全球最有价值专家

3 神龙出世

3.1 继续说我们的搬砖问题

image.png
第2章中指出只要采用虚拟化和弹性计算,就代表100个劳动力必须选择1个管理人员,实际上只能有99个劳动力进行搬砖。而神龙想做到的目标就是既然100个工人搬砖,就要全部搬砖,但同时也需要有手段来管理和控制我家和邻居家不同时间搬砖的工人数。以上图为例就是让黄色的那个被抽出来负责管理工作的工人回去仍然搬砖去。
包工头看着目前的情况想,如果要维持两家搬砖的工人弹性灵活,就需要100个工人抽1个工人做管理工作,那如果1000个工人就需要损失10个,10000个工人就需要损失100个。工程量越大则损失的劳动力就越多,当业务得到大规划发展时这个损耗的问题如果能够解决就可以大幅度的提升搬砖的效率。阿里云在神龙架构问世前的虚拟化损耗其实比搬砖的例子更大,平均虚拟化损耗为10%左右,代表100个工人,只有90个在搬砖,剩下的10个在做搬砖管理工作。

3.2 神龙1.0的核心理念

结合实际情况包工头决定让原来被抽出来做管理工作的工人甲仍然回去搬他的砖去,因为他的力气大的特点意味着他本来就适合搬砖而不适合管理工作。而工人队伍的管理工作采用项目经理制,即引入专业管理人员来负责工人队伍的管理,使工人只负责搬砖,当然引入专业管理人员后,成本肯定是上升的,但是搬砖的劳动力就没有损耗了。采用项目经理制后的情况如下图所示:
image.png
需要重点指出的是,搬砖队伍弹性伸缩的最小单位是1个队伍,如果搬砖1队忙不过来,只能要求整个搬砖2队或者搬砖3队整个队伍过来帮忙,而不能说从搬砖2队仅抽取几个工人过来帮忙。通过这种结构确保了每队搬砖队伍的劳动力因为有专门的项目经理进行管理而不会有损耗。这里先不引伸到神龙架构,因为还有一个重要的问题没有提到。

3.3 异构计算的本质是搬砖和砌墙的结合

包工头从自身业务的发展进行分析,发现我和我的邻居除了搬砖外还有砌墙的需求,而原先的工人全部都是擅长于搬砖而没有擅长砌墙的泥瓦工,让搬砖的工人去砌墙固然也是可以的,但是速度和质量显然不及专门砌墙的泥瓦工。因此包工头的做法是,在原来的队伍中加上泥瓦工,这样1支队伍就即可以搬砖又可以砌墙了,如下图所示:
image.png
搬砖工人和泥瓦工结合的方式就叫异构,搬砖工人在搬砖的时候泥瓦工在砌墙,就叫异构计算。

3.4 神龙1.0的特点总结

到这里为止虽然没提过神龙,其实已经把神龙1.0的特点全部说明白了,这里把搬砖砌墙队伍的问题和神龙1.0的特点结合起来来作为神龙1.0的特点总结。
搬砖砌墙队伍为了解决劳动力损耗的问题搬砖的全部搬砖,砌墙的全部砌墙,管理工作由专门的项目经理负责。反映到神龙1.0中即阿里云为了解决虚拟化损耗的问题新造出一个带有智能芯片的专用板卡负责虚拟化调度,这块专用板卡称为MOC卡,外观如下图所示:
image.png
为了解决搬砖砌墙任务而专门成立的带项目经理的搬砖砌墙队即是阿里云的神龙云服务器如下图所示:
image.png
业内一般管它叫弹性裸金属服务器。根据阿里云官方文档:弹性裸金属服务器(ECS Bare Metal Instance)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点,分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。现在能够理解了为什么计算性能与传统物理机无差别,因为神龙云服务器就是物理机,所以当然计算性能和物理机没有差别,此外它又可以像云服务器一样弹性伸缩,并且交付周期为分钟级。
一句话总结神龙1.0的特点就是,神龙云服务器兼具了物理机和云服务器优点,本质上是可以弹性伸缩的物理机并且这种物理机专门为提供云服务设计。

3.5 神龙1.0的瓶颈

回到搬砖的例子,包工头又碰到了新问题,邻居他自己就是一个项目经理,对于搬砖和砌墙有特殊的要求,他要求一个搬砖砌墙队内的100个工人上午搬左边的砖,同时砌右边的墙;下午搬右边的砖,同时砌左边的墙。而目前搬砖砌墙队的项目经理没经历过这种情况,不知道该怎么调配队伍内的工人。
这就是神龙1.0的瓶颈,虚拟化其实分成两个方向:一个方向是虚拟化组合,把一堆物理机粘成一个大的虚拟机;另一个方向是虚拟化切分,把一个物理机切成一堆小的虚拟机。神龙1.0做到了虚拟化组合,但并没有做到虚拟化切分,在例子中即为搬砖砌墙队的项目经理只知道在自己的队伍不够用时叫别的队伍来帮忙,但是自己的队伍内怎么去响应我邻居家的要求,上下午通过队内工人调配做到劳动力弹性却没有办法实现。
这个问题在神龙2.0中得到了解决。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
存储 人工智能 分布式计算
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
10月20日,2021年杭州云栖大会上,阿里云发布第四代神龙架构,升级至全新的eRMDA网络架构,是业界首个大规模弹性RDMA加速能力。
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
|
27天前
|
存储 弹性计算 负载均衡
云计算演进问题之CIPU与神龙计算的关系如何解决
云计算演进问题之CIPU与神龙计算的关系如何解决
|
27天前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
弹性计算 人工智能 网络协议
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control )算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
《阿里云产品手册2022-2023 版》——第四代神龙架构
《阿里云产品手册2022-2023 版》——第四代神龙架构
248 0
第四代神龙
第四代神龙自制脑图
118 0
第四代神龙
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀
|
存储 弹性计算 运维
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化(二)
《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化(二)
310 0
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化(二)
|
存储 监控 安全
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化(一)
《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化
611 0
带你读《弹性计算—无处不在的算力》第三章:计算产品和技术3.3弹性裸金属服务器和神龙虚拟化(一)
|
弹性计算 人工智能 并行计算
带你读《弹性计算—无处不在的算力》第二章:弹性计算产品家族 2.5:弹性高性能计算E-HPC
《弹性计算—无处不在的算力》第二章:弹性计算产品家族 2.5:弹性高性能计算E-HPC
169 0
带你读《弹性计算—无处不在的算力》第二章:弹性计算产品家族 2.5:弹性高性能计算E-HPC