《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同

简介: 《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同

02 多维协同

边缘云协同大体可分为“边边协同”和“云边协同”两类边边协同,主要是面向边缘云节点集群

间的计算、网络和存储等技术的资源协同。云边协同,主要是面向边缘云管控与边缘云节点集群间

的管控协同。


边边协同


边边协同技术,主要包括协同计算、协同网络和协同存储边缘云节点规模通常较小,资源规格受

限,不将资源部署的物理位置作为交付属性,而是按网络时延和服务质量等评估指标来交付资源,

这就要求边缘节点资源能够被管控系统“统管统调”。节点资源通过边边资源协调,实现“资源

池”化,边缘云资源池是资源管控的基础。

边缘云节点提供的是小型云的算网存资源,且算网存资源使用水位相互依赖,从技术上看单一节

点或单一集群里的资源容易跑满、造成同节点的其他资源无法再分配,边缘云边边协同管控需要能

够在边缘云节点和集群间进行多维资源的协同调度,调度策略的执行也正是基于边边资源协同来实

现的。

从业务高质量和资源高可用角度看,通过边边协同可以实现边缘云的高可用性保证通过边缘云单

节点或单集群内软硬件多路互备的技术方案实现系统高可用研发成本较高且效果未经验证,而依托

分布式云管的多级协同、边边协同和多点协同实现高可用,可以提供更高的性价比实现高可用,即

单点不可用时,由其他节点或集群来补位。

以边缘云的“协同存储”技术方案为例,阐述边边资源协同的技术实现。

协同存储管控的核心设计包括云边协同管控、全网智能调度、边缘自治管控等,是边缘云云边协同

以及跨节点协同的重要组成。

用户在使用对象存储时,针对海量数据,提出了大流量、就近、低延迟的要求,边缘云在这些方面

具备天然优势。但边缘云的对象存储在使用方式和体验上存在明显不足。边缘云由很多分布式边缘

云节点组成,如果每个边缘云节点独立进行对象存储服务,用户使用时将面临节点资源管理、资源

读写调度、单节点可用性运维等诸多复杂问题。

image.png图12 分布式存储示意图


边缘计算提供了位置无感的协同存储服务,通过中心管控和多个边缘节点进行协同,将分布在各地

的边缘节点的物理存储资源,组成一个逻辑统一的对象存储资源池。用户不需关心读写位置和单节

点可用性带来的运维和调度问题,即可得到与使用公有云对象存储一致的接口体验,以及由于数量

众多的边缘存储资源整合而带来的大容量、高弹性的存储资源池。

image.png图13 位置无感的分布式存储


协同存储核心包含中心管控与边缘节点两部分,其中,中心管控包含以下管理模块:


1684831619478.jpg

image.png图14 协同存储管控架构


协同存储的云边协同管控、全网智能调度、边缘自治管控等,是边缘云边边协同以及跨节点协同的

经典案例。

相关文章
|
1月前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
110 3
|
1月前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
|
1月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
50 7
|
2月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
121 4
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
【AI系统】分布式通信与 NVLink
进入大模型时代后,AI的核心转向大模型发展,训练这类模型需克服大量GPU资源及长时间的需求。面对单个GPU内存限制,跨多个GPU的分布式训练成为必要,这涉及到分布式通信和NVLink技术的应用。分布式通信允许多个节点协作完成任务,而NVLink则是一种高速、低延迟的通信技术,用于连接GPU或GPU与其它设备,以实现高性能计算。随着大模型的参数、数据规模扩大及算力需求增长,分布式并行策略,如数据并行和模型并行,变得至关重要。这些策略通过将模型或数据分割在多个GPU上处理,提高了训练效率。此外,NVLink和NVSwitch技术的持续演进,为GPU间的高效通信提供了更强的支持,推动了大模型训练的快
82 0
|
3月前
|
边缘计算
第十一届传感云和边缘计算系统国际会议 2025 11th International Conference on Sensor-Cloud and Edge Computing System (SCECS2025)
第十一届传感云和边缘计算系统国际会议 2025 11th International Conference on Sensor-Cloud and Edge Computing System (SCECS2025)
102 1
|
3月前
|
存储 运维 负载均衡
构建高可用性GraphRAG系统:分布式部署与容错机制
【10月更文挑战第28天】作为一名数据科学家和系统架构师,我在构建和维护大规模分布式系统方面有着丰富的经验。最近,我负责了一个基于GraphRAG(Graph Retrieval-Augmented Generation)模型的项目,该模型用于构建一个高可用性的问答系统。在这个过程中,我深刻体会到分布式部署和容错机制的重要性。本文将详细介绍如何在生产环境中构建一个高可用性的GraphRAG系统,包括分布式部署方案、负载均衡、故障检测与恢复机制等方面的内容。
231 4
构建高可用性GraphRAG系统:分布式部署与容错机制
|
4月前
|
消息中间件 存储 监控
消息队列系统中的确认机制在分布式系统中如何实现?
消息队列系统中的确认机制在分布式系统中如何实现?
|
3月前
|
边缘计算 运维 Cloud Native
阿里云基于云原生的大规模云边协同关键技术及应用荣获浙江省科学技术进步一等奖
11月22日, 2023年度浙江省科学技术奖获奖成果公布,阿里云与浙江大学、支付宝、谐云科技联合完成的基于云原生的大规模云边协同关键技术及应用获得浙江省科学技术进步一等奖。
|
4月前
|
边缘计算 人工智能 安全
阿里云边缘云连续四年蝉联第一
全球领先的IT市场研究和咨询公司IDC发布《中国边缘云市场跟踪研究,2023H2》报告,中国边缘公有云服务市场阿里云连续四年蝉联第一。