【百科】走近飞天:女娲——分布式协同服务

简介: 飞天(Apsara)是由阿里云自主研发、服务全球的超大规模通用计算操作系统。它可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提供计算能力。飞天的主要组成部分包括哪些,架构是怎样的? 云栖系列文章为你一一解读。
女娲(Nuwa),阿里云飞天系统底层核心模块,从2009年飞天建立之初开始自主研发,对基于飞天的系统提供一致性服务,分布式锁,和消息通知功能。与有类似功能的开源软件相比,女娲在性能,可扩展性,和可运维性上有明显优势。目前,女娲在阿里云支撑着大数据计算(MaxCompute),弹性计算(ECS),表格存储(TableStore),对象存储(OSS)等众多重量级的云产品。

作为一致性维护服务,女娲是应用系统里面最底层的服务,其本身不依赖其它任何服务。女娲是两层服务架构。后端是一致性维护的功能模块,由多个Paxos group组成一致性协议核心。每个资源(文件,锁等)在后端都有一个归属的quorum。Quorum的内容在quorum内利用分布式一致性协议进行同步,保证资源的一致性和持久化。Replication的逻辑完全被封装在女娲服务的后端,客户端不可见。多个quorum group提供了后端水平扩展的能力。前端Proxy层切断客户端和后端quorum的连接,代理客户端和quorum通信。Proxy一方面负责和众多客户的通信/长连接的维护,从而客户端的增长不会对后端quorum造成线性增长的压力;另一方面可以向客户隐藏后端quorum master切换的过程;master切换从而不会对用户有感知。Proxy Layer同时提供了高效的消息通知功能。

f12de3ca454c4fc60bfdbd6de5562f44980ee996

目录
相关文章
|
3月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
113 3
|
5月前
|
存储 监控 负载均衡
检索服务elasticsearch分布式结构
【8月更文挑战第22天】
56 3
|
18天前
|
消息中间件 存储 安全
分布式系统架构3:服务容错
分布式系统因其复杂性,故障几乎是必然的。那么如何让系统在不可避免的故障中依然保持稳定?本文详细介绍了分布式架构中7种核心的服务容错策略,包括故障转移、快速失败、安全失败等,以及它们在实际业务场景中的应用。无论是支付场景的快速失败,还是日志采集的安全失败,每种策略都有自己的适用领域和优缺点。此外,文章还为技术面试提供了解题思路,助你在关键时刻脱颖而出。掌握这些策略,不仅能提升系统健壮性,还能让你的技术栈更上一层楼!快来深入学习,走向架构师之路吧!
54 11
|
4月前
|
数据采集 分布式计算 MaxCompute
MaxCompute 分布式计算框架 MaxFrame 服务正式商业化公告
MaxCompute 分布式计算框架 MaxFrame 服务于北京时间2024年09月27日正式商业化!
112 3
|
7月前
|
消息中间件 传感器 Cloud Native
事件驱动作为分布式异步服务架构
【6月更文挑战第25天】本文介绍事件驱动架构(EDA)是异步分布式设计的关键模式,适用于高扩展性需求。EDA提升服务韧性,支持CQRS、数据通知、开放式接口和事件流处理。然而,其脆弱性包括组件控制、数据交换、逻辑关系复杂性、潜在死循环和高并发挑战。EDA在云原生环境,如Serverless,中尤其适用。
227 2
事件驱动作为分布式异步服务架构
|
5月前
|
Java 应用服务中间件 数据库
SpringCloud:服务保护和分布式事务详解
SpringCloud:服务保护和分布式事务详解
140 0
|
8月前
|
存储 算法
服务中一个简单的分布式系统
【5月更文挑战第21天】本文介绍一个分布式算法,旨在解决高速和低速网络环境下进程间保持相同通信频率的问题。算法通过frequencyEpoch防止过时信息导致无效切换,确保只有在多数节点检测到当前频率嘈杂时才会切换。
47 0
服务中一个简单的分布式系统
|
8月前
|
Cloud Native 数据管理 关系型数据库
【阿里云云原生专栏】云原生数据管理:阿里云数据库服务的分布式实践
【5月更文挑战第21天】阿里云数据库服务在云原生时代展现优势,应对分布式数据管理挑战。PolarDB等服务保证高可用和弹性,通过多副本机制和分布式事务确保数据一致性和可靠性。示例代码展示了在阿里云数据库上进行分布式事务操作。此外,丰富的监控工具协助用户管理数据库性能,支持企业的数字化转型和业务增长。
237 1
|
7月前
|
存储 监控 负载均衡
Zookeeper 详解:分布式协调服务的核心概念与实践
Zookeeper 详解:分布式协调服务的核心概念与实践
309 0