今晚就远航_个人页

个人头像照片 今晚就远航
个人头像照片
0
362
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2021年11月

正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2021-11-26

    弹性裸金属服务器的云盘启动和数据云盘动态热插拔有什么好处?

    云盘启动是弹性裸金属服务器的核心特征。如果无法支持云盘启动,则必须依赖传统的 PXE 装机,而PXE 装机无法实现分钟级业务交付、控制台镜像和密码修复等关键功能。数据云盘动态热插拔是弹性存储服务的关键特征,保证用户对存储性能和容量需求能够“Pay-As-You-Go”(按量付费)。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    Aliyun Linux 发行版的基础架构是什么样的?

    一个完整的 Linux 发行版可以被划分成三大部分,以 Aliyun Linux 为例,如下图所示。

    Kernel 即内核,是操作系统的核心组件,管理软硬件资源,向上通过系统调用,提供面向应用软件操作系统的基本服务,通过进程管理及调度器、内存管理、存储栈、网络栈等子系统来支撑一个操作系统的基础功能。

    Base OS 是操作系统发行版的基础运行环境,取决于操作系统的应用场景,可由数百到数千个软件包组成,为核心应用软件场景提供基础环境,包括容器、语言运行时、开发工具、包管理、镜像管理、系统核心服务等操作系统所需的基础公共功能。

    Application 即应用软件,根据操作系统的应用场景,必然存在一个或者多个核心应用运行在操作系统上,为实际业务提供服务。应用生态的软件包可以是操作系统默认搭载的软件包,也可以是单独发行的第三方软件包;可以是开源软件包,也可以是商业软件包。经过Linux 发行版和开源社区的多年发展,在服务器操作系统领域,形成了强大的应用生态环境。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    阿里云虚拟化热升级技术的直通设备移交是什么?

    大型的云服务提供商有不少的计算服务通过将GPU 或FPGA 设备直通给虚拟机,来加速用户的诸如深度学习、人工智能相关的应用程序。使用Intel VT-d 技术实现设备直通,可让虚拟机直接访问硬件设备。现代设备的访问都是由DMA(直接内存访问)来完成的,在虚拟化直通设备的情况下,DMA 访问所需的从GPA(虚拟机物理地址)到HPA(物理机物理地址)的转化,是由IOMMU 来实现的。如果实现带有直通设备的虚拟机的热升级,那么需要迁移设备的内部状态,重建IOMMU 重映射表,保存和恢复正在进行的DMA 操作以免造成数据丢失。这是比较复杂的情况, 而且没有现成框架可以使用。

    在阿里云虚拟化热升级技术中,我们使用了“直通设备移交”的方式来实现直通设备的热升级。由于我们都是使用VFIO 这个框架来实现设备直通的,VFIO 会在/ dev/vfio/ 目录下暴露一些设备节点给QEMU 使用。在热升级框架中,引入了一个用户态的VFIO 连接器,它将所有与VFIO 相关的文件描述符和接口(包括/dev/vfio、/ dev/vfio/grp*、 VFIO eventfd 和KVM irqfd 等),以及QEMU 对VFIO 文件描述符的访问包装起来,如下图所示。

    在热升级的过程中,只需要将VFIO 连接器的控制权移交给升级后的QEMU 进程即可,避免了设备状态的保存和IOMMU 重映射表的重建等非常复杂的操作。在热升级框架的设计中,我们通过在设备移交后立刻给虚拟机注入一个虚拟中断的方式,解决了中断丢失的问题。

    在一些典型的测试案例( 如空载、Web 服务器、MySQL 数据库服务器、SPECCPU 压测等)中,阿里云虚拟机热升级带来的业务中断时间为30 毫秒左右。该热升级框架在线上大规模虚拟机的功能迭代、运维升级中发挥了巨大的作用,已经成为阿里云弹性计算升级迭代的运维利器,也是阿里云虚拟化的核心技术之一。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    阿里云虚拟化热升级技术的虚拟机嫁接是什么?

    在KVM 上,一个QEMU 进程代表一个虚拟机。虚拟机包括内存、虚拟CPU、存储、网卡等,都是由QEMU 进程来分配和管理的。将一个虚拟机从前面提到的kvm0 迁移到kvm1 上,本来可以使用本地热迁移技术,不过这样就需要两份相同大小的虚拟机内存,对于内存数量很大的虚拟机而言,会浪费不少内存资源。

    在虚拟化热升级技术中,通过“虚拟机嫁接”将虚拟机的内存和内部状态从一个KVM 实例嫁接到另一个KVM 实例之上,如下图所示。我们先将虚拟机的内存标为reserved 状态,然后派生一个新的QEMU 子进程,调用QEMU 中的savevm_state 函数保存原来虚拟机的内部状态并暂停虚拟机运行,之后在新的QEMU 子进程中调用execve() 函数加载升级后的QEMU 程序文件,并通过loadvm_state 函数恢复虚拟机的状态。

    在这个过程中,但凡有任何的失败,系统都会让最初暂停的QEMU 进程重新恢复原来的状态。在具体实现中,需要让新的QEMU 进程在execve() 函数执行后, 能够保留原虚拟机的内存。由于在默认情况下execve() 函数并不支持内存的保留, 所以我们在宿主机的Linux 内核中对mmap 函数进行了简单的改造,添加了MAP_ KVM_RESERVED 这样一个专用于QEMU/KVM 热升级的标志。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    阿里云虚拟化热升级技术的双KVM 内核模块是什么?

    以Intel 硬件平台下的KVM 为例, 普通的KVM 架构有一个与架构无关的 kvm.ko 模块,还有一个管理Intel 硬件虚拟化的kvm-intel.ko 模块。在热升级框架下, 我们做了kvm-intel-0.ko 和kvm-Intel-1.ko 两个模块,以便实现KVM 模块的热升级。

    如下图所示。我们尽可能地将kvm.ko 模块中多数的功能都移到kvm-intel-0.ko 模块中,让kvm.ko 模块尽可能“薄”。在一般情况下,它不需要热升级,只需要升级架构相关的kvm-intel.ko 模块即可。当我们加载kvm-intel-0.ko、kvm-intel-1.ko 模块时,会创建相应的/dev/kvm0、/dev/kvm1 等设备节点文件,用于QEMU 与KVM 内核模块的交互。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性计算第二代虚拟化技术具备哪些特征呢?

    第一代虚拟化技术的业务痛点,催生了第二代虚拟化技术的产生,弹性裸金属产品也应运而生,第二代虚拟化技术具备以下特征:

    全部I/O 设备通过VT-d 设备直通模式进入VM,以此减少para-virtualization I/O 半虚拟化开销。

    随着VT-d 设备直通的引入,网络虚拟化和存储虚拟化需要一个新的业务部署点。

    VT-d 设备直通引入后,SR-IOV 等技术却无法达到和传统QEMU PV 设备一样的灵活性,I/O 硬件虚拟化催生Intel scalable IOV 的业务诉求。

    随着存储虚拟化和网络虚拟化新的业务部署点的产生,这个业务部署点很显然需要针对计算、网络、存储、安全等IaaS 核心业务部署定制化芯片加速。

    同时支持传统VM、弹性裸金属服务器、安全容器等IaaS 最新业务诉求。

    简而言之,Hypervisor 的主要组件全部下沉进入一个定制计算节点,该定制计算节点完成I/O 设备虚拟化、网络虚拟化、存储虚拟化和管控部署,以及安全特性部署等。

    而主机侧,针对公共云的需求,从计算和内存原来的QUME + KVM 方式,经过高度定制和瘦身后,降低了主机资源占用并提升计算服务质量,演化到了裸金属架构。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性计算的第一代虚拟化技术的痛点和思考有哪些?

    这代技术的痛点和思考 ,如下图所示。

    传统KVM 虚拟化系统导致CPU 计算特性损失

    众所周知,IaaS 公共云技术的核心是Intel 至强处理器VT 等硬件辅助虚拟化技术(Hardware-assisted virtualization),配合主流虚拟化系统软件(KVM/Xen/VMware ESXi 等),实现了IaaS 弹性计算;客户则是通过ECS(或者 AWS EC2) 购买虚拟机(VM)形式的计算资源。

    image.png

    得益于高度成熟的虚拟化技术,VM 形式的计算资源“几乎”等价于客户线下的物理服务器资源,但是“几乎”并不是“ 完全”。一个典型的案例就是 Intel 至强处 理器的VT 硬件辅助虚拟化能力会被公共云服务提供商的虚拟化系统“消费掉”,客户无法在公共云VM 实例中再次部署虚拟化系统,致使传统OpenStack 和VMware based workload 无法在公共云部署。

    客户希望用一套OpenStack/VMware 统一管理公共云线上资源和专有云线下资源,同时在控制面和数据面打通线上线下资源,在兼顾专有云数据安全、法律合规的基础上,充分利用公共云计算资源的弹性能力,但是由于Intel 至强处理器VT 硬件辅助虚拟化能力“被消费”,使得此种混合云技术很难在公共云实现。云原生安全容器创新依赖Intel VT 硬件辅助虚拟化能力输出,这是传统虚拟化无法解决的问题。

    传统KVM 虚拟化系统导致资源争抢不可避免

    以传统的KVM 虚拟化系统为例,双路Skylake(96 个HT)计算资源的虚拟化典型部署情况是:有8 个HT 部署网络虚拟化vSwitch 和存储虚拟化,对外售卖88 个HT 作为vCPU 计算资源。我们需要注意到,对外售卖的88HT vCPU 计算资源和8HT 网络/ 存储虚拟化是部署在同一组Skylake CPU 上的,那么如下共享资源争抢是不可避免的。

    CPU DDR 带宽、LLC 等共享资源的争抢。在机头网络带宽迅速提升的当下, DDR 带宽、LLC 等资源争抢现象愈发突出。

    半虚拟化(Para-virtualized) I/O 设备模型等资源争抢引入售卖CPU 抖动和售卖I/O 抖动。

    存储和网络等I/O 内部层级化HQoS 难于实施。一般而言,层级化HQoS 是解决资源争抢的有效手段,电信级网络设备一般会部署HQoS 进行资源调度, 而HQoS 的典型部署方法需要通过芯片实现。

    传统KVM 虚拟化系统导致I/O 性能瓶颈

    传统KVM 虚拟化系统由(计算虚拟化)QEMU-KVM + (网络虚拟化)DPDK based vSwitch +( 存储虚拟化)SPDK based I/O initiator 构成。

    在Intel 引入VT 硬件虚拟化支持后,配合KVM、Xen 等虚拟化系统软件,由CPU 指令处理的数据面和KVM 等虚拟化系统软件形成了控制面及异常处理路径,此种软硬件协同设计既实现了CPU 和内存虚拟化的数据路径的最小开销,又保留了KVM 控制路径和异常处理路径的高度灵活性。

    同处于数据路径的存储虚拟化和网络虚拟化虽然通过DPDK 和SPDK 等技术接近了软件优化的技术极限,但是仍然无法和芯片的加速性能媲美。特别是在网络吞吐向100GbE 演进的过程中,交换网络的带宽能力和Intel 至强处理器的处理能力间的差距逐渐拉大,在传统KVM 虚拟化系统下,通过DPDK、SPDK 等纯软件进行I/O 性能优化的瓶颈日渐凸显。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性计算的第一代虚拟化技术的特征是什么?

    第一代虚拟化技术的特征是:Xen/KVM + 软件network vSwitch + 软件storage initiator + 管控等All on Xeon。

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属的技术背景是什么?

    2003 年,Xen 在SOSP 发表Xen and the Art of Virtualization,拉开了x86 平台虚拟化技术的大幕。2006 年,AWS 发布EC2(Elastic Compute Cloud),同年发布S3 (Simple Storage Service),拉开了公共云服务的大幕。EC2 的核心正是基于Xen 虚拟化技术。虚拟化技术赋予了EC2 核心产品价值——弹性,同时虚拟化技术给网络虚拟化、存储虚拟化,和管控系统提供了业务部署点。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器适用哪些场景?

    适用的场景如下:

    **混合云和第三方虚拟化软件部署 **

    伴随着公共云的高速发展,通过混合云打通用户线下专有云和线上公共云资源的需求日趋强烈。OpenStack 和 VMware 等 IaaS Stack 在公共云上部署,同时管理用户线上和线下 IaaS 资源,可以看到,VMware Cloud on Alibaba Cloud 就属于此种混合云业务应用场景。

    而 OpenStack 和 VMware Cloud 等 IaaS Stack 在公共云上部署,最为关键的就是要求公共云提供 CPU 虚拟化的能力,否则在普通虚拟机中部署嵌套虚拟化技术,其性能完全无法接受。具体到 Intel x86 CPU 体系,则要求公共云平台对外提供计算资源的完整虚拟化特性(Intel VT-x 和 VT-d 等硬件虚拟化技术),使得 VMware ESXi、KVM、 Xen、Hyper-V 等虚拟化平台和技术能够平滑上云。而弹性裸金属服务器就能满足这个要求。

    高隔离容器部署

    容器技术具备轻量敏捷等优势,正在成为 DevOps 主流技术。相对于公共云 VM 部署容器,使用弹性裸金属服务器部署容器具备零虚拟化开销等性能优势,如下图所示。

    image.png

    同时我们注意到 Clear Container、RunV,以及 Kata Container 等具备高隔离高安全特性的新型容器技术,依赖 CPU 完整虚拟化特性(比如 Intel VT-x)。此种高隔离高安全的容器技术只可能部署在弹性裸金属服务器上。

    高质量计算服务

    高质量计算服务指零资源争抢、零虚拟化开销和高隔离高安全。

    虚拟化技术在提高数据中心资源利用率的同时,引入了资源争抢等业务难题。 多个 VM 运行在一台物理服务器上,CPU 核、L1/L2/LLC 缓存、内存带宽等CPU 和内存子系统资源通过虚拟化技术抽象和切分,同时提供给多个 VM 使用。传统的虚拟化技术很难根本解决各VM 间资源的争抢问题。而弹性裸金属服务器不存在此问题。

    高速低时延 RDMA 网络支持场景

    RDMA 网络在超低时延和减轻 CPU 负载等方面优势明显,但是在网络虚拟化支持方面的短板明显 ;而公共云网络部署的关键是通过网络虚拟化实现网络资源的租户隔离。弹性裸金属服务器在支持原生 ROCE 和 IB RDMA 网络方面,具有天然优势。

    因此可以看到各家云服务提供商均以裸金属服务器支持 RDMA 网络,以此部署满足HPC 和异构计算的高速低时延互联需求。

    RISC CPU 支持

    Intel x86 体系结构对 CPU 虚拟化技术等软硬件的支持最为完善,加上 Intel Xeon x86 处理器在服务器市场的垄断地位,主流公共云 IaaS 虚拟化技术均基于 Intel Xeon x86。

    但是必须看到,对于特定细分市场,RISC CPU 仍然具备相当优势。比如 Power ISA CPU 在金融保险等市场的优势地位,以及 ARMv8 ISA 在新兴服务器市场崭露头角。如何支持 Power 和 ARMv8 等 RISC 服务器,是公共云服务提供商必须回答的问题。

    使用弹性裸金属服务器无须 CPU 和内存虚拟化技术的特别适配,就能够快速将 Power 和ARMv8 等处理器在公共云上线部署。

    GPU 性能无损输出

    GPU 产品对虚拟化技术支持有限,通过传统虚拟机方式输出 GPU 计算性能,会有严重的性能下降,而弹性裸金属服务器可做到 GPU 性能无损输出。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器具备虚拟机所不具备的哪些特征?

    弹性裸金属服务器必须具备虚拟机所不具备的核心竞争力,包括以下方面。

    物理机的完整处理器特性

    虚拟机无法提供 Intel VT-x 和 VT-d 等技术,而物理机天然具备这些完整处理器特性。缺乏 VT-x 等技术的支持,在虚拟机中进行嵌套虚拟化, 其性能是完全无法接受的。因此,对于在公共云上部署专有云等场景,如 OpenStack、VMWare、Clear Container 和 Runv 等,弹性裸金属服务器是唯一选择,同时也支持Intel vTune、性能调优和剖析依赖。

    类似于 skylake AVX512 等新导入处理器的指令特性,弹性裸金属服务器无须等待 Hypervisor 适配即可在第一时间获得,并且由于没有 Hypervisor 软件适配的复杂性,其功能的稳定性得到天然保障。

    **物理机无损的高性能 **

    虚拟化技术必然带来性能开销,而物理机不存在 CPU 和内存虚拟化开销,此方面有绝对优势。

    **物理机的高隔离性 **

    物理机在 CPU、内存、I/O 等资源方面完全隔离,做到了真正意义上的资源零争抢。

    **物理机的高安全性 **

    物理机是真正意义上的用户独占,对于诸如 Hypervisor 逃逸、CPU 微架构侧信道攻击等问题,天然免疫。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器的免人为自动化运维是什么意思?

    传统物理机的部署一般需要 3 个工作日,交付时间长,而免人为自动化运维是 IaaS 云服务的核心特征。

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器的宕机自动迁移恢复有什么优点?

    宕机自动迁移恢复可以极大减少 IaaS 基础设施故障的恢复时间。当虚拟机或者弹性裸金属服务器出现软硬件故障时,运维管控系统能够自动迁移实例,保证用户业务中断最小化。

    而宕机自动迁移恢复归功于弹性裸金属服务器本地“无状态”,其实现依赖 BIOS 配置可迁移、云盘启动、数据云盘等关键技术。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器的虚拟机 VNC、Web 控制台、Open API 用户体验是什么?

    保持和虚拟机 Web H5 VNC、Web 控制台等方面一致的用户体验,能够极大降低用户的学习成本;保持和虚拟机一致的 Open API 接口,才能保护用户对既有资源管理系统的投资。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器兼容虚拟机镜像的好处是什么?

    兼容虚拟机镜像,可以使弹性裸金属服务器和虚拟机之间平缓迁移,提供业务部署弹性。

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器兼容 VPC、SLB、RDS 等云平台全业务带来了什么好处?

    对于已经上云的用户来说,出于保护当前投资等考虑,完全兼容现有云平台业务至关重要。以 VPC 网络为例,弹性裸金属服务器必须具备和虚拟机保持百分百一致的虚拟化网络接入能力和安全隔离能力。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器的分钟级交付有什么好处?

    云服务快速弹性伸缩,是 IaaS 云服务的核心特征。一般来说,虚拟机服务可以做到分钟级业务的弹性伸缩。当业务流量瞬间暴涨时,要求后台必须具备分钟级业务弹性伸缩能力,弹性裸金属服务器只有做到分钟级快速交付,才能应对突如其来的业务流量。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    弹性裸金属服务器有哪些关键特征?

    弹性裸金属服务器这一新物种强调的是“弹性”,也就是通过技术创新,使得传统裸金属服务能够具有和虚拟机一致的使用体验和业务敏捷性。具体而言,它具备如下图所示的 8 项关键特征。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    基于 IDC 托管的物理机服务和基于虚拟化技术的虚拟机服务有哪些区别?

    传统的基于 IDC 托管的物理机服务,由于无虚拟化技术参与,所以很难实现资源池化、弹性供给和管理运维的自动化,无法满足云服务的业务需求,很难归类为云服务。下图对基于 IDC 托管的物理机服务和基于虚拟化技术的虚拟机服务做了对比。

    image.png

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
  • 回答了问题 2021-11-26

    什么是弹性裸金属?

    弹性裸金属兼具“弹性”和“裸金属”两个属性,既具备虚拟机级别的弹性和使用体验,又保留了裸金属即物理机的优势,让它在很多场景中具有了独特的优势。要实现这两个属性,就需要最大限度地保持 VPC 网络、EBS 云盘、ECS 管控的技术和代码兼容性,并兼容服务器 IDC 上线和运维流程。

    资料来源:《弹性计算—无处不在的算力》

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息