《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同

简介: 《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同

02 多维协同

边缘云协同大体可分为“边边协同”和“云边协同”两类边边协同,主要是面向边缘云节点集群

间的计算、网络和存储等技术的资源协同。云边协同,主要是面向边缘云管控与边缘云节点集群间

的管控协同。


边边协同


边边协同技术,主要包括协同计算、协同网络和协同存储边缘云节点规模通常较小,资源规格受

限,不将资源部署的物理位置作为交付属性,而是按网络时延和服务质量等评估指标来交付资源,

这就要求边缘节点资源能够被管控系统“统管统调”。节点资源通过边边资源协调,实现“资源

池”化,边缘云资源池是资源管控的基础。

边缘云节点提供的是小型云的算网存资源,且算网存资源使用水位相互依赖,从技术上看单一节

点或单一集群里的资源容易跑满、造成同节点的其他资源无法再分配,边缘云边边协同管控需要能

够在边缘云节点和集群间进行多维资源的协同调度,调度策略的执行也正是基于边边资源协同来实

现的。

从业务高质量和资源高可用角度看,通过边边协同可以实现边缘云的高可用性保证通过边缘云单

节点或单集群内软硬件多路互备的技术方案实现系统高可用研发成本较高且效果未经验证,而依托

分布式云管的多级协同、边边协同和多点协同实现高可用,可以提供更高的性价比实现高可用,即

单点不可用时,由其他节点或集群来补位。

以边缘云的“协同存储”技术方案为例,阐述边边资源协同的技术实现。

协同存储管控的核心设计包括云边协同管控、全网智能调度、边缘自治管控等,是边缘云云边协同

以及跨节点协同的重要组成。

用户在使用对象存储时,针对海量数据,提出了大流量、就近、低延迟的要求,边缘云在这些方面

具备天然优势。但边缘云的对象存储在使用方式和体验上存在明显不足。边缘云由很多分布式边缘

云节点组成,如果每个边缘云节点独立进行对象存储服务,用户使用时将面临节点资源管理、资源

读写调度、单节点可用性运维等诸多复杂问题。

image.png图12 分布式存储示意图


边缘计算提供了位置无感的协同存储服务,通过中心管控和多个边缘节点进行协同,将分布在各地

的边缘节点的物理存储资源,组成一个逻辑统一的对象存储资源池。用户不需关心读写位置和单节

点可用性带来的运维和调度问题,即可得到与使用公有云对象存储一致的接口体验,以及由于数量

众多的边缘存储资源整合而带来的大容量、高弹性的存储资源池。

image.png图13 位置无感的分布式存储


协同存储核心包含中心管控与边缘节点两部分,其中,中心管控包含以下管理模块:


1684831619478.jpg

image.png图14 协同存储管控架构


协同存储的云边协同管控、全网智能调度、边缘自治管控等,是边缘云边边协同以及跨节点协同的

经典案例。

相关文章
|
16天前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
|
18天前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
38 7
|
2月前
|
存储 缓存 负载均衡
从零到一:分布式缓存技术初探
分布式缓存通过将数据存储在多个节点上,利用负载均衡算法提高访问速度、降低数据库负载并增强系统可用性。常见产品有Redis、Memcached等。其优势包括性能扩展、高可用性、负载均衡和容错性,适用于页面缓存、应用对象缓存、状态缓存、并行处理、事件处理及极限事务处理等多种场景。
116 1
|
2月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
94 2
|
2月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
96 4
|
3月前
|
存储 运维 负载均衡
构建高可用性GraphRAG系统:分布式部署与容错机制
【10月更文挑战第28天】作为一名数据科学家和系统架构师,我在构建和维护大规模分布式系统方面有着丰富的经验。最近,我负责了一个基于GraphRAG(Graph Retrieval-Augmented Generation)模型的项目,该模型用于构建一个高可用性的问答系统。在这个过程中,我深刻体会到分布式部署和容错机制的重要性。本文将详细介绍如何在生产环境中构建一个高可用性的GraphRAG系统,包括分布式部署方案、负载均衡、故障检测与恢复机制等方面的内容。
178 4
构建高可用性GraphRAG系统:分布式部署与容错机制
|
3月前
|
供应链 算法 安全
深度解析区块链技术的分布式共识机制
深度解析区块链技术的分布式共识机制
82 0
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
【AI系统】分布式通信与 NVLink
进入大模型时代后,AI的核心转向大模型发展,训练这类模型需克服大量GPU资源及长时间的需求。面对单个GPU内存限制,跨多个GPU的分布式训练成为必要,这涉及到分布式通信和NVLink技术的应用。分布式通信允许多个节点协作完成任务,而NVLink则是一种高速、低延迟的通信技术,用于连接GPU或GPU与其它设备,以实现高性能计算。随着大模型的参数、数据规模扩大及算力需求增长,分布式并行策略,如数据并行和模型并行,变得至关重要。这些策略通过将模型或数据分割在多个GPU上处理,提高了训练效率。此外,NVLink和NVSwitch技术的持续演进,为GPU间的高效通信提供了更强的支持,推动了大模型训练的快
64 0
|
4月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
|
2月前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
182 5