阿里云熊鹰:基于融合、协同系统的边缘云原生架构演进和实践

简介: 云原生和边缘计算是近两年都非常火的技术话题了,在第十届云计算标准和应用大会上,阿里云高级技术专家熊鹰分享了《基于融合、协同系统的边缘云原生架构演进和实践》,希望通过介绍现在阿里云在边缘计算和边缘云原生这些技术领域的系统架构演进,让大家了解到业务在云原生和边缘计算结合场景下落地的一些思考。

熊鹰.jpeg

云原生和边缘计算是近两年都非常火的技术话题了,在第十届云计算标准和应用大会上,阿里云高级技术专家熊鹰分享了《基于融合、协同系统的边缘云原生架构演进和实践》,希望通过介绍现在阿里云在边缘计算和边缘云原生这些技术领域的系统架构演进,让大家了解到业务在云原生和边缘计算结合场景下落地的一些思考。

关注阿里云Edge Plus公众号,回复“熊鹰”,获得演讲PPT材料

概述

近几年边缘计算发展非常迅猛,大家可以在各种标准和资料中看到各家对它的定义,这里对其中的几个基础概念做一个总结性的表述

【缘起】
边缘计算概念的缘起,可以追溯到比较久远的时期,但是真正热度兴起,主要还是因为5G的发展;4G的发展使得移动互联网大爆发,因此在5G时代边缘计算被赋予了很大的期望,希望成为新的产业赛道;另一方面,5G标准3GPP里定义的的三大场景大带宽、低延时、广连接,从各个方面都会强化边缘计算的应用场景,而由此带来的电信的基础设施的改造,使计算可以进一步下沉,从互联网到核心网、进一步下沉到接入网,计算正在一步步变得离用户越来越近。

【定义】
关于边缘计算的定义,身处不同的领域和角度,运营商、云服务厂商、硬件厂商,各家对于边缘计算的定义是不一样的。在阿里云的边缘云标准里,定义边缘云为:在靠近终端(人和物)的网络节点,提供分布式、可定义、可调度、标准开放且安全的计算平台及服务。目标是要拓展云的边界,让计算与连接离物更近,让它作为万物互联的基石。

【特征】
与中心云来对比,边缘的节点是分散的多级的,节点多而体量小,不止是区域级省级,还会下沉到地市级园区级,在5G场景里,更要下沉到接入网,云与边、边与边之间的网络可能都是互联网通道。

【挑战】
海量的、分布式的、异构的边缘节点资源特性,会给业务带来巨大的挑战:多个网络入口,代表着统一的流量监控和弹性伸缩策略是不可用;节点多而体量小,代表着单一集群的弹性弱,而全局的弹性强;海量节点的纳管和互联网的网络环境,对于高可用、灾备、迁移等等都是大的冲击。

总体来说,由于新基建的提出和布局,5G、物联网、工业互联网得到了广泛的关注。5G的商业化和产业化进程的加速,使底层基础架构更加的成熟,在今年已经催生出了一大批新行业入场,云应用、云游戏、互动娱乐、工业互联网2.0等等,同时也在推动着整体技术架构在迅速地变化和演进。

基础设施演进

首先来介绍边缘基础设施的演进情况,阿里云根据业务形态,定义了三个阶段:

屏幕快照 2021-01-05 上午10.22.48.png

第一个阶段为边缘云就绪,在这个阶段,用户只是把运行在物理机上面的应用,迁移到虚拟化环境中,这个过程是以降低成本为主要驱动力的,用户不再自建节点,将底层物理设施的运维转交给边缘云处理,而应用的开发和运维方式并没有非常不同。

第二个阶段为边缘云原生,用户希望能再进一步降低整体拥有成本,提升系统能力和研发效能,利用标准化、自动化的方式来管理资源、交付应用、运维系统,用户基于K8S进行深度开发和定制,将边缘资源进行一个整合,适配边缘的特性,在之上开发搭建自己的PaaS平台,以提供给内部的业务使用。

大家对前两个阶段应该很熟悉了,跟中心云的演进过程很类似;

第三个阶段为边缘融合云原生,应该算是一个比较新的概念,这是阿里云在实践过程当中,结合对用户业务的思考,摸索出来定义的一个阶段。

展开来讲:边缘的特性是分布式、资源小而多、网络条件复杂,这样用户需要随时关注基础设施的稳定性,并进行业务和数据的切换和迁移;另外,弹性不强,那么用户的业务也很难做到按需使用;另外,边缘各种能力在技术架构上的整合,也需要用户更深入到K8S之中,具备定制开发能力。总结来说,就是用户需要感知底层资源、基础设施,甚至库存、水位、规划等等情况,并且业务要下沉到边缘的技术挑战和难度都很大。在边缘融合云原生里,带给用户的是,在边缘也并不需要去关心底层基础架构设施,就能享受到弹性、高可用、按需使用的能力。边缘融合云原生应该将异构资源、多集群、库存水位的边缘特性屏蔽;将资源调度、弹性伸缩、多级协同等方面的能力进行沉淀和打通;利用云原生的良好的扩展性,将资源、能力进行抽象融合;同时还需要针对通用业务场景和新兴业务场景,提供统一标准的接口封装;将这些能力释放给用户。

系统架构演进

在技术架构演进实践当中,同样按照刚才的思路进行分层设计:
基础设施层:具备异构资源纳管、多级网络架构、融合存储形态等能力,解决底层资源融合纳管、融合生产、抽象屏蔽的问题;
云边协同层:具备计算、存储、网络流动的能力,具备云边、边边、多云的协同能力,解决各种能力和系统协同打通的问题;
平台引擎层:具备边缘云原生抽象集成能力,解决将资源、组件和应用、调度、编排等能力集成融合的问题;
业务场景层:具备统一接口、业务沉淀、场景深化的能力,解决开发者生态闭环的问题。

屏幕快照 2021-01-05 上午10.22.58.png

可以预料到,随着5G技术和基础设施的持续演进和完善,以及创新型业务的发展,系统架构还会随之进行演进和更迭。

纸上得来终觉浅,绝知此事要躬行。接下来,熊鹰通过介绍阿里云在实际业务实践过程中的案例,来一一解读各层的能力和设计。

应用案例——无状态应用

该场景主要针对的是任务类的业务(例如压测、拨测、离线转码任务)、或者对等网络系统(P2P传输网络)等,这类业务,对弹性伸缩能力有较高要求、对成本有强烈的敏感度,但是对位置、高可用性等要求不高。由于边缘单节点弹性能力弱,但是全局资源弹性强的特点,这种场景算是考验边缘计算基础设施能力的典型应用场景。在架构上,它是需要有一个对全局资源的一个统一库存、融合调度、协同编排的能力:在计算形态上,要支持虚机、容器、安全容器等多种融合计算的形态来满足不同场景的业务诉求;在资源库存方面,要有一个融合的资源池;在调度和编排方面,也是有一个协同统一的调度能力;这样就能很好的提供在事件触发、流量突发场景下的弹性伸缩和按需使用的能力,也能让用户的使用成本大幅度降低。

应用案例——有状态应用

这个场景,业务除了将计算和弹性托管以外,还将域名和调度托管了。另外,由于业务的复杂性,架构上也日趋复杂。首先,在单集群内,系统需要拆分为多个独立工作的微服务;第二,多个微服务自身和之间,都有相互编排依赖的关系;第三,在云与边(管控与业务)、边与边(集群与集群)之间会有协同通信的需求;最后,再加上域名和流量调度、SLB、数据库、中间件等通用能力和组件集成需求;从这个角度来看,在边缘的应用场景已经不比在中心云里的应用复杂度低了,同时还要加上边缘的分布式、多集群、广调度的特性;分布式云计算是对这个场景比较贴切的描述。

在架构上都需要如何来解决业务的需求?最底层基础架构设施层,产品能力上,引入分布式SLB、分布式DB等;网络能力上,加入了可编程可配置的云边、边边覆盖网络能力;在协同层上,云边协同、边边协同、流量和资源的动态平衡协同也是核心的能力;在引擎层上,需要有深度开发适配边缘的云原生能力,像解决海量节点纳管引入的K8S多集群管理联邦能力、解决业务多租户隔离的Virutal Cluster能力、解决微服务架构中服务发现和协同通信的Service Mesh组件、适配边缘虚拟网络、虚拟存储的CNI、CSI组件等等。

屏幕快照 2021-01-05 上午11.21.09.png

熊鹰:"分布式云计算概念目前还没有太多的标准和规范,一个复杂应用要做成分布式,从中心下沉到边缘,还需要做很多系统架构改造适配的工作。这也是阿里云努力的方向,希望沉淀出更多的平台能力出来,形成一个个开发生态的闭环,让分布式云计算,也能轻松落地边缘。”

应用案例——终端上云

这个业务场景在今年非常火热,典型是云游戏和云应用这两个领域。业务将运行在终端上的系统或者应用,托管到云端,以降低终端成本,也可以降低高质量业务的可准入门槛。在边缘融合云原生里,这里会有一个根本性的概念转变:从资源托管、应用托管到设备托管、位置无感托管。在基础设施层和引擎层,针对各类异构资源将资源做初步的封装,抽象出一层统一的标准的虚拟化的资源,提供安全和隔离的能力;在业务层上,再进行一层封装,将资源属性屏蔽掉,不再提供资源的概念,取而代之的是设备的概念;同时,在协同层上加入了协同计算、协同存储、协同网络的能力,让虚拟设备能够流动起来。在业务上,不再能看到传统意义上应用和资源的概念,只能看到一个一个虚拟设备的管控能力,例如设备数据、设备应用、设备调度等等。

屏幕快照 2021-01-05 上午11.21.19.png

这里强调一下数字孪生的概念,熊鹰表示:在万物互联时代,每一个物理终端的背后,最终都有一个影子终端在边缘云上,或者是数据的载体,或者是系统的延伸。

应用案例——超清视频

这个场景还处在技术摸索的阶段,是真正下沉到5G MEC节点的一个场景,希望能够打造一个可复制的5G领域的通用技术架构模型。这个场景里最关键是要能打通协同层和运营商MEC系统的资源协同、流量调度、网络分流协同的能力。5G/MEC时代算力的持续下沉,到接入网,到MEC节点,通用协议如DNS协议会无法满足精准的调度需求;一方面调度将会需要根据终端的精确地域信息来决策,另一方面也要根据业务的需求场景来进行决策;例如,对于定位、AR/VR等极高实时性的业务,会放在接入机房来满足实时性的要求;视频分析等高传输带宽节省业务和云游戏较高实时性业务,会放在汇聚机房,兼顾功能和实时性的需求;而重计算/大存储的业务放在重汇聚机房或核心机房;多级计算、多级网络的设计能让整个系统的能力更加强大和丰富。

边缘融合云原生希望在兼顾业务时延、计算能力等需求的基础上,能分场景灵活的选择业务的部署位置,来满足各类业务的需求。当然,这些能力应该是封装抽象提供给上层,用户和业务是不应该感知到底层基础架构设施的复杂性的。

总结

5G时代,终端上云、VR/AR、边缘AI、工业互联网、智慧农业的应用场景将逐渐爆发起来;在一些专有领域内,已经有重量级的应用场景落地;但是在通用互联网技术领域,真正的5G的Killer应用还没有出现,或者说真正的结合5G技术还有基础设施的技术架构还待演进。熊鹰十分期待边缘计算平台能够通过共建、合作的方式,将多级网络里的资源融合调度起来,将云边端真实打通协同,基于云原生技术,为行业提供开放的、标准的云边协同、云网一体化能力,让更多的应用能轻松的下沉到边缘,实现万物互联的时代。

目录
相关文章
|
25天前
|
SQL 前端开发 关系型数据库
如何开发一套研发项目管理系统?(附架构图+流程图+代码参考)
研发项目管理系统助力企业实现需求、缺陷与变更的全流程管理,支持看板可视化、数据化决策与成本优化。系统以MVP模式快速上线,核心功能包括需求看板、缺陷闭环、自动日报及关键指标分析,助力中小企业提升交付效率与协作质量。
|
8天前
|
前端开发 JavaScript BI
如何开发车辆管理系统中的车务管理板块(附架构图+流程图+代码参考)
本文介绍了中小企业如何通过车务管理模块提升车辆管理效率。许多企业在管理车辆时仍依赖人工流程,导致违章处理延误、年检过期、维修费用虚高等问题频发。将这些流程数字化,可显著降低合规风险、提升维修追溯性、优化调度与资产利用率。文章详细介绍了车务管理模块的功能清单、数据模型、系统架构、API与前端设计、开发技巧与落地建议,以及实现效果与验收标准。同时提供了数据库建表SQL、后端Node.js/TypeScript代码示例与前端React表单设计参考,帮助企业快速搭建并上线系统,实现合规与成本控制的双重优化。
|
21天前
|
人工智能 监控 测试技术
告别只会写提示词:构建生产级LLM系统的完整架构图​
本文系统梳理了从提示词到生产级LLM产品的八大核心能力:提示词工程、上下文工程、微调、RAG、智能体开发、部署、优化与可观测性,助你构建可落地、可迭代的AI产品体系。
294 51
|
16天前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
104 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
13天前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
21天前
|
消息中间件 数据采集 NoSQL
秒级行情推送系统实战:从触发、采集到入库的端到端架构
本文设计了一套秒级实时行情推送系统,涵盖触发、采集、缓冲、入库与推送五层架构,结合动态代理IP、Kafka/Redis缓冲及WebSocket推送,实现金融数据低延迟、高并发处理,适用于股票、数字货币等实时行情场景。
143 3
秒级行情推送系统实战:从触发、采集到入库的端到端架构
|
25天前
|
前端开发 API 定位技术
如何开发车辆管理系统中的用车申请板块(附架构图+流程图+代码参考)
本文详细解析了如何将传统纸质车辆管理流程数字化,涵盖业务规则、审批流、调度决策及数据留痕等核心环节。内容包括用车申请模块的价值定位、系统架构设计、数据模型构建、前端表单实现及后端开发技巧,助力企业打造可落地、易扩展的车辆管理系统。
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
171 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
2月前
|
运维 监控 Cloud Native
从本土到全球,云原生架构护航灵犀互娱游戏出海
本文内容整理自「 2025 中企出海大会·游戏与互娱出海分论坛」,灵犀互娱基础架构负责人朱晓靖的演讲内容,从技术层面分享云原生架构护航灵犀互娱游戏出海经验。
312 16
|
2月前
|
运维 监控 Cloud Native
从本土到全球,云原生架构护航灵犀互娱游戏出海
内容整理自「 2025 中企出海大会·游戏与互娱出海分论坛」,灵犀互娱基础架构负责人朱晓靖的演讲内容,从技术层面分享云原生架构护航灵犀互娱游戏出海经验。

热门文章

最新文章