「读书笔记」《大规模分布式存储系统:原理解析与架构实战》:六

本文涉及的产品
网络型负载均衡 NLB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 「读书笔记」《大规模分布式存储系统:原理解析与架构实战》:六

6 分布式表格系统

Google Bigtable 是分布式表格系统的始祖,采用双层结构,底层采用 GFS 作为持久化存储层。GFS + Bigtable 双层架构是一种里程碑式的架构。

6.1 Google Bigtable

Bigtable 是 Google 开发的基于 GFS 和 Chubby 的分布式表格系统。

Web 索引、卫星图像数据等在内的海量结构化和半结构化数据,都存储在 Bigtable 中。

Bigtable 是一个分布式多维映射表:

(row:string, column:string, timestamp:int64) -> string
OCAML

Bigtable 将多个列组织成列族(column family),这样,列名由 2 个部分组成:(column family, qualifier)。列族是 Bigtable 中访问控制的基本单元。

6.1.1 架构

Bigtable 构架在 GFS 之上,为文件系统增加一层分布式索引层。另外,Bigtable 依赖 Google 的 Chubby(分布式锁服务)进行服务器选举及全局信息维护。

Bigtable 将大表划分为大小在 100 - 200 MB 的子表(tablet),每个子表对应一个连续的数据范围。Bigtable 主要由 3 个部分组成:

  • 客户端程序库(client):Bigtable 到应用程序的接口。但数据内容是都客户端和子表服务器之间直接传送。
  • 一个主控服务器(Master):管理所有子表服务器,包括分配子表给子表服务器,指导子表服务器实现子表的合并,接受来自子表服务器的子表分裂消息,监控子表服务器,在子表服务器之间进行负载均衡并实现子表服务器的故障恢复等。
  • 多个子表服务器(tablet Server):实现子表的装载、卸载、表格内容的读写,子表的合并和分裂。操作日志以及每个子表上的 sstable 数据存储在底层的 GFS 中。

Bigtable 依赖 Chubby 锁服务实现如下功能:

  1. 选取并保证同一时间只有一个主控服务器;
  2. 存储 Bigtable 系统引导信息;
  3. 用于配合主控服务器发现子表服务器加入和下线;
  4. 获取 Bigtable 表格的 schema 信息及访问控制信息。

Chubby 是一个分布式锁服务,底层算法核心是 Paxos。典型部署为:** 两地三中心五副本,同城的两个数据中心分别部署两个副本,异地的数据中心部署一个副本,** 任何一个数据中心整体发生故障都不影响正常服务。

Bigtable 包含三种类型的表格:

  • 用户表(User Table):存储用户实际数据
  • 元数据表(Meta Table):存储用户表的元数据,如子表位置信息、SSTable 及操作日志文件编号、日志回放点等
  • 根表(Root Table):存储元数据表的元数据。根表的元数据,也就是根表的位置信息,又称 Bigtable 引导信息,存放在 Chubby 系统中。客户端、主控服务器以及子表服务器执行过程中都需要依赖 Chubby 服务,如果 Chubby 发生故障,Bigtable 整体不可用。

6.1.2 数据分布

假设平均一个子表为 128MB,每个子表的元信息为 1KB,那么一级元数据能够支持的数据量为 128MB * (128MB/1KB) = 16TB,两级元数据能够 支持的数据量为 16TB*(128MB/1KB)=2048 PB, 满足几乎所有业务的数据量需求。

客户端使用了缓存(cache)和预取(prefetch)技术。

6.1.3 复制与一致性

Bigtable 系统保证强一致性,同一时刻同一个子表只能被一台 TabletServer 服务。通过 Chubby 互斥锁实现的。

Bigtable 写入 GFS 的数据分为 2 种:

  • 操作日志。
  • 每个子表包含的 SSTable 数据。

6.1.4 容错

6.1.5 负载均衡

子表是 Bigtable 负载均衡的基本单位。

负载均衡:子表迁移。

6.1.6 分裂与合并

6.1.7 单机存储

Bigtable 采用 Merge-dump 引擎。随机读取和顺序读取都只需要访问一次磁盘。

6.1.8 垃圾回收

标记删除(mark-and-sweep)

6.1.9 讨论

GFS + Bigtable 兼顾系统的强一致性和可用性。

底层 GFS 弱一致性,可用性和性能很好;上层的表格系统 Bigtable 通过多级分布式索引使得对外整体表现为强一致性。

Bigtable 最大的优势在于线性可扩展。

Bigtable 架构面临一些问题:

  • 单副本服务。Bigtable 架构适合离线或半线上应用。
  • SSD 使用。
  • 架构的复杂性导致 Bug 定位困难

6.2 Google Megastore

在 Bigtable 系统之上提供友好的数据库功能支持,增强易用性。Megastore 接入传统的关系型数据库和 NoSQL 之间的存储技术。

6.2.1 系统架构

6.2.2 实体组

6.2.3 并发控制

6.2.4 复制

6.2.5 索引

  • 局部索引
  • 全局索引
  • STORING 子句
  • 可重复索引

6.2.6 协调者

6.2.7 读取流程

6.2.8 写入流程

6.2.9 讨论

分布式存储系统的两个目标:

  1. 可扩展性,最终目标是线性可扩展;
  2. 功能,最终目标是支持全功能 SQL。

6.3 Windows Azure Storage

6.3.1 整体架构

目录
打赏
0
0
0
0
30
分享
相关文章
RocketMQ实战—3.基于RocketMQ升级订单系统架构
本文主要介绍了基于MQ实现订单系统核心流程的异步化改造、基于MQ实现订单系统和第三方系统的解耦、基于MQ实现将订单数据同步给大数据团队、秒杀系统的技术难点以及秒杀商详页的架构设计和基于MQ实现秒杀系统的异步化架构。
RocketMQ实战—3.基于RocketMQ升级订单系统架构
安全监控系统:技术架构与应用解析
该系统采用模块化设计,集成了行为识别、视频监控、人脸识别、危险区域检测、异常事件检测、日志追溯及消息推送等功能,并可选配OCR识别模块。基于深度学习与开源技术栈(如TensorFlow、OpenCV),系统具备高精度、低延迟特点,支持实时分析儿童行为、监测危险区域、识别异常事件,并将结果推送给教师或家长。同时兼容主流硬件,支持本地化推理与分布式处理,确保可靠性与扩展性,为幼儿园安全管理提供全面解决方案。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
从理论到落地:MCP 实战解锁 AI 应用架构新范式
本文旨在从 MCP 的技术原理、降低 MCP Server 构建复杂度、提升 Server 运行稳定性等方面出发,分享我们的一些实践心得。
322 44
百万级URL重定向工程:大规模网站架构设计与性能优化实战
本文深入探讨了大规模重定向系统的核心挑战与解决方案,涵盖技术瓶颈分析、分布式架构设计、十亿级URL处理策略、全球化部署方案及全链路监控体系。通过数学建模与性能优化,提出三层架构模型,并结合一致性哈希分片算法实现高效路由。同时,对比不同架构的吞吐量与容灾能力,分享某电商平台实践案例,展示性能显著提升。最后展望重定向即服务(RaaS)未来趋势,包括AI动态路由、量子安全跳转和边缘智能等关键技术,为企业提供扩展性强、稳定性高的系统设计参考。
80 25
MCP 实践:基于 MCP 架构实现知识库答疑系统
文章探讨了AI Agent的发展趋势,并通过一个实际案例展示了如何基于MCP(Model Context Protocol)开发一个支持私有知识库的问答系统。
MCP 实践:基于 MCP 架构实现知识库答疑系统
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
286 4
301重定向进阶实战:从性能优化到未来架构演进
本文探讨了百万级流量动态重定向的架构设计与优化方案,结合全球电商平台迁移案例,展示基于Nginx+Lua的动态规则引擎及流量分级策略。同时,深入分析性能优化与安全加固技术,如零延迟跳转、智能熔断机制,并提出混合云环境下的跨平台解决方案。此外,针对SEO数据继承与流量恢复提供三维权重映射模型和自动化监测工具链。最后,展望边缘计算、区块链及量子安全等下一代重定向技术,为企业构建面向未来的体系提供参考。
68 7
中小医院云HIS系统源码,系统融合HIS与EMR功能,采用B/S架构与SaaS模式,快速交付并简化运维
这是一套专为中小医院和乡镇卫生院设计的云HIS系统源码,基于云端部署,采用B/S架构与SaaS模式,快速交付并简化运维。系统融合HIS与EMR功能,涵盖门诊挂号、预约管理、一体化电子病历、医生护士工作站、收费财务、药品进销存及统计分析等模块。技术栈包括前端Angular+Nginx,后端Java+Spring系列框架,数据库使用MySQL+MyCat。该系统实现患者管理、医嘱处理、费用结算、药品管控等核心业务全流程数字化,助力医疗机构提升效率和服务质量。
103 4
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。

推荐镜像

更多