「读书笔记」《大规模分布式存储系统:原理解析与架构实战》:六

简介: 「读书笔记」《大规模分布式存储系统:原理解析与架构实战》:六

6 分布式表格系统

Google Bigtable 是分布式表格系统的始祖,采用双层结构,底层采用 GFS 作为持久化存储层。GFS + Bigtable 双层架构是一种里程碑式的架构。

6.1 Google Bigtable

Bigtable 是 Google 开发的基于 GFS 和 Chubby 的分布式表格系统。

Web 索引、卫星图像数据等在内的海量结构化和半结构化数据,都存储在 Bigtable 中。

Bigtable 是一个分布式多维映射表:

(row:string, column:string, timestamp:int64) -> string
OCAML

Bigtable 将多个列组织成列族(column family),这样,列名由 2 个部分组成:(column family, qualifier)。列族是 Bigtable 中访问控制的基本单元。

6.1.1 架构

Bigtable 构架在 GFS 之上,为文件系统增加一层分布式索引层。另外,Bigtable 依赖 Google 的 Chubby(分布式锁服务)进行服务器选举及全局信息维护。

Bigtable 将大表划分为大小在 100 - 200 MB 的子表(tablet),每个子表对应一个连续的数据范围。Bigtable 主要由 3 个部分组成:

  • 客户端程序库(client):Bigtable 到应用程序的接口。但数据内容是都客户端和子表服务器之间直接传送。
  • 一个主控服务器(Master):管理所有子表服务器,包括分配子表给子表服务器,指导子表服务器实现子表的合并,接受来自子表服务器的子表分裂消息,监控子表服务器,在子表服务器之间进行负载均衡并实现子表服务器的故障恢复等。
  • 多个子表服务器(tablet Server):实现子表的装载、卸载、表格内容的读写,子表的合并和分裂。操作日志以及每个子表上的 sstable 数据存储在底层的 GFS 中。

Bigtable 依赖 Chubby 锁服务实现如下功能:

  1. 选取并保证同一时间只有一个主控服务器;
  2. 存储 Bigtable 系统引导信息;
  3. 用于配合主控服务器发现子表服务器加入和下线;
  4. 获取 Bigtable 表格的 schema 信息及访问控制信息。

Chubby 是一个分布式锁服务,底层算法核心是 Paxos。典型部署为:** 两地三中心五副本,同城的两个数据中心分别部署两个副本,异地的数据中心部署一个副本,** 任何一个数据中心整体发生故障都不影响正常服务。

Bigtable 包含三种类型的表格:

  • 用户表(User Table):存储用户实际数据
  • 元数据表(Meta Table):存储用户表的元数据,如子表位置信息、SSTable 及操作日志文件编号、日志回放点等
  • 根表(Root Table):存储元数据表的元数据。根表的元数据,也就是根表的位置信息,又称 Bigtable 引导信息,存放在 Chubby 系统中。客户端、主控服务器以及子表服务器执行过程中都需要依赖 Chubby 服务,如果 Chubby 发生故障,Bigtable 整体不可用。

6.1.2 数据分布

假设平均一个子表为 128MB,每个子表的元信息为 1KB,那么一级元数据能够支持的数据量为 128MB * (128MB/1KB) = 16TB,两级元数据能够 支持的数据量为 16TB*(128MB/1KB)=2048 PB, 满足几乎所有业务的数据量需求。

客户端使用了缓存(cache)和预取(prefetch)技术。

6.1.3 复制与一致性

Bigtable 系统保证强一致性,同一时刻同一个子表只能被一台 TabletServer 服务。通过 Chubby 互斥锁实现的。

Bigtable 写入 GFS 的数据分为 2 种:

  • 操作日志。
  • 每个子表包含的 SSTable 数据。

6.1.4 容错

6.1.5 负载均衡

子表是 Bigtable 负载均衡的基本单位。

负载均衡:子表迁移。

6.1.6 分裂与合并

6.1.7 单机存储

Bigtable 采用 Merge-dump 引擎。随机读取和顺序读取都只需要访问一次磁盘。

6.1.8 垃圾回收

标记删除(mark-and-sweep)

6.1.9 讨论

GFS + Bigtable 兼顾系统的强一致性和可用性。

底层 GFS 弱一致性,可用性和性能很好;上层的表格系统 Bigtable 通过多级分布式索引使得对外整体表现为强一致性。

Bigtable 最大的优势在于线性可扩展。

Bigtable 架构面临一些问题:

  • 单副本服务。Bigtable 架构适合离线或半线上应用。
  • SSD 使用。
  • 架构的复杂性导致 Bug 定位困难

6.2 Google Megastore

在 Bigtable 系统之上提供友好的数据库功能支持,增强易用性。Megastore 接入传统的关系型数据库和 NoSQL 之间的存储技术。

6.2.1 系统架构

6.2.2 实体组

6.2.3 并发控制

6.2.4 复制

6.2.5 索引

  • 局部索引
  • 全局索引
  • STORING 子句
  • 可重复索引

6.2.6 协调者

6.2.7 读取流程

6.2.8 写入流程

6.2.9 讨论

分布式存储系统的两个目标:

  1. 可扩展性,最终目标是线性可扩展;
  2. 功能,最终目标是支持全功能 SQL。

6.3 Windows Azure Storage

6.3.1 整体架构

相关文章
|
4月前
|
数据采集 机器学习/深度学习 运维
量化合约系统开发架构入门
量化合约系统核心在于数据、策略、风控与执行四大模块的协同,构建从数据到决策再到执行的闭环工作流。强调可追溯、可复现与可观测性,避免常见误区如重回测轻验证、忽视数据质量或滞后风控。初学者应以MVP为起点,结合回测框架与实时风控实践,逐步迭代。详见相关入门与实战资料。
|
4月前
|
前端开发 JavaScript BI
如何开发车辆管理系统中的车务管理板块(附架构图+流程图+代码参考)
本文介绍了中小企业如何通过车务管理模块提升车辆管理效率。许多企业在管理车辆时仍依赖人工流程,导致违章处理延误、年检过期、维修费用虚高等问题频发。将这些流程数字化,可显著降低合规风险、提升维修追溯性、优化调度与资产利用率。文章详细介绍了车务管理模块的功能清单、数据模型、系统架构、API与前端设计、开发技巧与落地建议,以及实现效果与验收标准。同时提供了数据库建表SQL、后端Node.js/TypeScript代码示例与前端React表单设计参考,帮助企业快速搭建并上线系统,实现合规与成本控制的双重优化。
|
4月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
441 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
4月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
4月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
874 23
|
4月前
|
监控 Cloud Native Java
Spring Boot 3.x 微服务架构实战指南
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Spring Boot 3.x与微服务架构,探索云原生、性能优化与高可用系统设计。以代码为笔,在二进制星河中谱写极客诗篇。关注我,共赴技术星辰大海!(238字)
Spring Boot 3.x 微服务架构实战指南
|
5月前
|
消息中间件 数据采集 NoSQL
秒级行情推送系统实战:从触发、采集到入库的端到端架构
本文设计了一套秒级实时行情推送系统,涵盖触发、采集、缓冲、入库与推送五层架构,结合动态代理IP、Kafka/Redis缓冲及WebSocket推送,实现金融数据低延迟、高并发处理,适用于股票、数字货币等实时行情场景。
757 3
秒级行情推送系统实战:从触发、采集到入库的端到端架构
|
5月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
732 7
|
4月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
514 0

热门文章

最新文章

推荐镜像

更多
  • DNS