2020年 5G 商用元年以来,各种边缘场景开始火热起来,边缘计算又重回人们视野,这次的回归还伴随着云计算的普及与通信技术的颠覆式发展。边缘云作为 5G 与中心云计算的中继节点,处于云网融合、承上启下的关键位置。而边缘云 + 云原生将会像集装箱改变世界那样,基于云原生的标准化和深厚积累,更好的解决边缘各种异构、垂直、分布式等场景的各类问题赋能边缘场景。基于这种思考,结合阿里巴巴集团丰富的边缘生态业务,阿里云逐步构建了边缘云原生体系。在近期的CCF TF48期研讨会上,阿里云边缘云高级技术专家周晶为现场技术专家们分享了阿里云边缘云原生体系构建过程中的思考与沉淀。
周晶 阿里云边缘计算高级技术专家
高性能 OpenResty 开发框架 Vanilla 作者,WeiboMesh 发起人与初创核心成员,推进完成微博核心服务 Mesh 化改造,开源爱好者,目前主要负责阿里云边缘融合计算平台的设计研发与边缘云原生体系建设,致力于 5G 边缘计算基础设施的设计建设与行业落地。
以下摘自分享原文:
边缘云发展趋势
回顾整个移动通信的演进历程,从1980s 1G到来且模拟移动电话诞生,到后来2G网络下的数字移动电话、3G下的全球范围兼容及网页生成、4G移动宽带加速视频传播,到5G时代移动物联网与垂直行业的纵深融合,再到未来6G万物深度智联的行业展望,通信的主体从以人为中心,逐渐向以物为中心迁移。
信息流转,数据的生产消费方式也正在发生巨变。在5G环境下,无线网络的接入能力进一步跃升,数据的生产消费方式由集中生产、分散消费转变为分散生产、泛在消费,这意味着技术上需要进行应用的重构和产业的协同。
5G 时代,80% 的数据和计算将发生在边缘
随着5G网络对移动宽带的增强,海量终端互联以及对于高可靠低时延连接的需求,边缘云的价值将日益凸显。边缘云通过流量在边缘收敛,实现对5G大流量的本地化处理和分发,避免海量流量对骨干网络的冲击,同时也有效降低海量流量的远程传输成本。
依托分布式架构,边缘云计算实现对海量终端高并发的分布式处理、深入场景的本地化计算能力,有效提升计算效率。同时,边缘云通过就近部署,满足5G低延时处理的场景化需求。
阿里云边缘云 | 一云多芯、一云多态
今年 5 月以 “云上创新” 为主题的阿里云峰会上,阿里云发布了一云多芯、一云多态的一体化飞天架构,旨在通过飞天操作系统对 x86、ARM、RISC-V 等多种芯片架构的全面兼容,以提供一套:云产品架构统一、体验一致的飞天弹性架构,从中心向边缘辐射,让算力无处不在。
这 4 种形态的云在位置分布、机房规模、应对的场景和解决的问题等方面各不相同。中心 Region 位于一线核心区域,作为全产品大体量,超大规模的公共云形态,应对各种通用的弹性、高密、大并发、高可用场景,比如大家熟悉的互联网计算场景、大数据、AI 模型训练、推理等场景。中心 Region 通常离终端用户较远,时延一般在 100 ms以内。
物联网IoT 现场计算节点位于用户机房及业务现场,离用户最近,提供软硬一体的计算方案,面向设备厂商提供云端一体的设备智能化服务,面向行业和政府提供企业数字化 IoT 基础设施,以应对 IoT 设备智能化、垂直行业的物联网平台建设、IoT 设备分发与拓展等场景,时延在 5 ms 以内。
而在中心和现场之间的作为中继节点的本地 Region 和边缘云节点时延在 5 ms 到 20 ms 之间,本地 Region 位于数字经济活跃区域,以中心云小型化输出的方式提供比边缘云节点更大规模的计算服务,重点支持区域企业数字化转型的场景。
而我们团队负责的边缘云由大规模地域分散的边缘异构多云融合节点组成,单节点规模在百数量级,节点广泛覆盖离用户更近的热点区域,且相互协同组成一朵分布式云;以应对边缘设备管理、智能终端上云、视图流化、渲染、CDN、以及终端算力上移、云端算力下沉、5G + 边缘云网融合等边缘场景,为用户提供更近、更低时延且与中心体验一致的云服务。阿里云边缘云具有可远程管控、安全可信、标准易用等特点。
边缘云的两大问题域与边缘云原生
随着云计算的深度发展使得企业和组织可以更聚焦自己的业务,大量的中心用云需求在促进了云体系的标准化、云产业的日渐成熟以及相关技术水位不断提升的同时,也教育和引导了用户有更好的用云习惯和意愿。云原生理念基于集装箱标准化改变世界的原理逐步的深入人心,可预见未来云原生必然会在边缘发挥举足轻重的标准化优势,因为没有组织会不喜欢成本和效率的优化。基于云原生的方法论来解决边缘分布式云服务的组织和全面云化的问题再合适不过。漫漫求索的过程中,阿里边缘云原生体系建设的进程拉开帷幕。
两大问题域 ·融合 | 中心云 VS 边缘云
那如何构建边缘云原生技术体系?过程中需要解决哪些问题?面对哪些挑战呢?
对云厂商来说,肯定是希望客户都基于云原生的方式来用云,尤其在边缘场景一方面由于环境和资源因素给管控和云化服务带来了巨大的挑战。另一方面从边缘的各种垂直领域的场景需求输入来说,我们所要面对的场景和需求极为复杂,难度极大。举个资源异构融合方面的例子,智能摄像头、视图设备可能需要用 GPU,而其他场景却需要普通 CPU,可能同时还需要有存储的支持,那如何面对几十台到上百台的边缘 IDC 提供超融合的算力服务,如何最大限度降低各种管控带来的公摊,更多的出卖可靠的算力就是非常有挑战的事情。
这里的融合主要是超融合的边缘基础 IaaS 服务以及云网双侧的服务融合,有以下核心问题要解决:
- 如何通过超融合的 IaaS 技术完成边缘基础设施建设;
- 如何通过统一的管控体系,将边缘分布式、异构的资源进行云化纳管,对上基于云原生的方式提供全网、全域位置无感的 IPaaS(Infrastructure PaaS) 能力;
- 如何复用当前云原生技术体系,基于前面的 IPaaS 提供高效、可靠的服务管控和部署的 APaaS 能力;
- 如何将云网两侧的服务融合后为用户提供更便捷、可靠的服务;
- 这里的协同,有通信、管控层面的协同,比如跨 IDC 协同,也有云和网的能力协同,比如网络服务协同、云网资源协同等。
下图可以看到,中心云和边缘云在资源属性和节点属性上的差异:
边缘机房往往单个规模相对较小,几台到上百台不等,而且分布广泛,天然分布式云架构;算力资源异构,通常针对不同场景有特定的硬件资源需求,边缘 IDC 资源总量有限,往往多个云厂商此消彼长,所以多云资源的对接也是必由之路;网络环境也不尽相同,有单线、多线,有经典网络有 VPC,还有些小运营商机房其网络架构往往完全定制化。单机房规模以及边缘云总量的的限制就确定必须要在有限的资源条件提供融合的服务,比如计算和存储往往也需要混池,就算是有独立的存储资源池,也需要同时提供块、对象、NAS 等多种形态的存储能力。所以在边缘构建超融合 IaaS 基础设施是必然的选择。
两大问题域 ·融合 | 计算、存储、网络、调度
计算面的融合方面我们基于 Cloudlet 融合计算的方式实现在同一台物流设备上同时提供裸金属、虚机、安全容器等多种算力形态的服务。
边缘计算的产品和研发团队,大部分都有CDN行业的经验,具备较强的缓存技术能力,但是对于边缘计算来讲,除了服务于应用互联网和产业互联网,需要提供基于互联网节点的低成本、分布式、多类型的存储和缓存系统,同时存储数据的安全性也是要特别考虑的一点。
当边缘节点可以提供更多的计算能力的时候,如何让用户更容易使用边缘计算服务,边缘网络能力是不可或缺的一部分,我们需要构建一个云-边-端协同边缘计算网络,支持多云协同(含与运营商MEC网络协同)的能力,以透明的方式为用户提供提供安全、可靠、加速、低成本的网络服务。
边缘节点数量较多,分布较广,如何做到算力的快速分发以及全网万级节点镜像秒级分发。
两大问题域 ·融合 | 云网融合 多云融合 MEC 与 5G 网络对接
5G 网络在设计之处就考虑了对边缘计算的支持,比如 MEC,用户面、控制面分离与用户面的灵活部署以及多种本地分流技术等等。开篇也提到 5G R17 新增独立的边缘计算相关协议规范的制定本身就从标准上确定了云网融合的大方向。可预见的未来云跟网必定是你中有我、我中有你的。
当下随着 5G 建设的推进,运营商也根据 5G 标准逐步开发了相关的 5G 开放能力 NEF。边缘云侧也在逐步开始尝试与运营商的 MEC 资源对接。运营商也开始将 MEC 作为自身边缘云服务的一部分对 B 端客户提供相应计算服务。这其实是一个双赢的局面,运营商通过与云的融合一来可以基于云计算集约、弹性、按需扩展等特性将过去依赖于硬件相对僵化的网络资源盘活,同时将自身的资源优势与网的能力优势及价值基于云网融合发挥到最大化。云厂商通过对接运营商的资源和服务,为客户提供了更低时延、更高保障的边缘云服务。
两大问题域 ·协同 | 网络协同
边缘云原生最基础的分布式协同来自于天然的分布式环境,每个边缘 IDC 都是一个边缘的 Cloudlet 单元,管控过程中也可以将邻近的多个独立的 Cloudlet 整合为一个更大规模的 Cloudlet 统一管理。主要应对 Pod 跨 IDC 迁移;边缘单节点脱网,如何通过邻近的节点回云或者与其它节点协同通信;阿里云边缘云建设了较为丰富的网络协同能力,从端边、边边、边云 全方位应对网络协同带来的各种问题和挑战。
从边缘云原生生态的分布来看,我们希望边缘云原生的管控是逐步去中心化的,尽管当前更多的实践方式都是中心管控,边缘自治。但从规模上看,长期的发展必然会导致边缘巨大的规模足以轻松让中心集中管控的模式不堪重负,所以起步阶段就考虑去中心化的分布式云管控模式是明智之举。而去中心化、单元化的分布式云管控将对分布式协同的提出更高要求。在不远的未来,边缘网格、分布式消息总线将是解决这一系列问题的核心技术。
边缘云原生 | 边缘云网一体化
当边缘计算节点越来越多,承载的用户越来越多,不同的用户在使用边缘节点服务的时候也会提出更多的需求。除了提供的丰富算力之外,如何才能让边缘计算节点发挥更大的价值?
云网一体化是边缘云非常重要的技术点。云网的一体化主要表现在:一是对于位置的要求,本身边缘云服务对位置是无感的,虽然客户场景是位置强需求的,它一定是有位置属性;二是对于节点间的协作是完全基于网络。同时,边缘云在层次上还承载了跟运营商的MEC节点,以及跟中心Region和本地Region之间的承接关系。这种承接关系、数据流向以及应用路径的路由都是通过云网一体技术去实现的。网络中单个节点都可以认为是不可信的或者是可以短时间下线的,这就需要云网一体化调度能力确保边缘云节点服务的高可用性。
阿里云拥有遍布全球2800+边缘云节点,确保客户业务能够触达全球用户。通过对CDN做全面云化,CDN节点升级成边缘云节点,客户在使用原有CDN资源时可享受更多边缘计算服务。在IaaS层面有标准的边缘云节点服务ENS,它是一个小型的分布式云节点服务。边缘云节点ENS底座提供了统一资源建设、统一资源库存、统一对外资源交付能力,使各种应用场景能够像使用统一操作系统一样使用ENS资源。目前阿里云边缘云节点服务上,已构建了很多应用场景产品,包括CDN产品体系、云通信场景、视图计算场景、云游戏以及跟合作伙伴共建的创新场景。
阿里云飞天强大的技术生态体系、云原生方向上多年的积累以及 CDN 十年磨一剑,更重要的是阿里云边缘计算早早的行业布局与探索——CDN on ENS 以业务养平台,以平台养生态的战略举措,造就了这张飞天边缘技术大图。
关注阿里云Edge Plus公众号,了解更多阿里云边缘云最新动态
阿里云边缘云构建能力与行业解决方案
构建能力 | 边缘应用托管
我们以边缘云 IaaS 底座构建的边缘容器平台作为底座,基于完全云原生的理念来构建与中心云体验无差别,满足云原生标准的应用发布、管控 APaaS(Application PaaS) 体系。基于云原生 OAM 的应用管控模式,提供关注点分离,业务轻量的应用管理平台服务,整体完成边缘基础设施的云化。为用户提供了真正意义上的 EdgeNative 的边缘应用托管服务。
目前基于我们构建的边缘云原生技术体系已经有许多内部核心业务大规模验证,这里跟大家分享几个我认为比较有代表性的场景。
行业解决方案 | CDN on ENS
基于边缘云 ENS 底座构建的下一代云化 CDN。我们基于 CDN 云化的方式,为传统 CDN 场景补齐了隔离重保、资源复用的短板,同时也为业务创新打下坚实基础。除此之外我们基于边缘云原生体系拓宽了 CDN 的业务边界,从最初的 Content 分发,到如今定义为 Computing 计算分发网络。为用户提供了可编程 CDN 的核心服务能力,极大程度优化了客户用云成本,同时提升了业务创新的效率。
行业解决方案 | 流量计算产品
另一个比较有代表性的场景是流量计算新产品,我们基于 CDN 已有的全域统一接入调度能力,基于边缘云原生底座构建了强大的算力网络。能够做到秒级全网超大规模算力交付,算力按需使用,具备全网一致的体验,且支持按量付费,极大程度提高了整体的资源利用效率,也降低了客户的算力成本。基于阿里边缘云广覆盖、超大规模的边缘基础设施以及全域统一资源调度与接入调度能力,真正做到了算随网动,以应对边缘各种算力场景。
行业解决方案 | 数字孪生与智能终端上云
对于具备播放能力而不具备算力的瘦客户端,将原本需要在客户端完成的渲染及强交互等功能移到云上,在边缘云上完成渲染之后变成单视频的播放和交互数据下发瘦终端即可。
行业解决方案 | 云游戏
在云游戏领域,边缘云ENS解决云游戏落地的“最后1公里”,游戏应用上传即完成全球边缘云节点的部署,根据用户分布就近处理数据请求。游戏分发时达到毫秒级指令生效,实现快速分发到边缘。云游戏在边缘进行计算、分析以及下发指令,真正做到业务的快速响应。
未来展望
边缘云原生技术体系的构建自下而上,从底层基础设施,IaaS、IPaaS、APaaS 、边缘服务能力层(EdgeMesh、边缘应用托管、全域调度等)、边缘能力开放层等,可以预见 5G 边缘计算必然是共生共赢的关系,两者不能割裂来看。尤其在边缘场景越来越多,且往工业和产业纵深越来越深入的情况下,各种新的需求和场景在不断涌现。大到元宇宙、具体到车路协同等垂直场景,都对边缘计算提出了更高的要求。边缘云原生技术体系下的安全性、稳定性、全域性能调优、云网融合、网随云动等领域是重点突破的方向,基于云原生的理念真正高效解决好边缘用云用网的问题将是我们接下来比较核心的工作。