6.824 2020 视频笔记四:VM-FT

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 6.824 2020 视频笔记四:VM-FT

MIT 今年终于主动在 Youtube 上放出了随堂视频资料,之前跟过一半这门课,今年打算刷一下视频,写写随堂笔记。该课程以分布式基础理论:容错、备份、一致性为脉络,以精选的工业级系统论文为主线,再填充上翔实的阅读材料和精到的课程实验,贯通学术理论和工业实践,实在是一门不可多得的分布式系统佳课。课程视频和资料看这里,本篇是第四节课笔记,VMWare 的 P/B 系统。

image.png

挑战

  1. 需要同步什么状态?
  2. Primary 需要等 Backup 吗?
  3. Primary 宕机时,如何进行切换?
  4. 在 Primary/Backup 宕机时,如何进行快速恢复。

同步状态的层级:

  1. 应用层(Application state)。如 GFS,更为高效,只需要发送高维操作即可,缺点是需要在应用层进行容错。
  2. 机器层(Machine level)。可以让运行在服务器上的应用无需改动而获取容错能力。但需要细粒度的同步机器事件(中断、DMA);并且需要修改机器底层实现以发送这些事件。

而 VM-FT 选择了后者,能力更强大,但也做出了更多牺牲。

VM-FT 系统使用一个额外的虚拟层 VMMonitor( hypervisor == monitor == VMM ),当 client 请求到达 Primary 时,VMMonitor 一方面向本机转发请求、一方面向 Backup 的 VMMonitor 同步请求。处理完请求得到结果时,Primary 的 VMMonitor 会回复 Client,而 Backup 的 VMMonitor 会丢弃 Backup 产生的回复。

使用两种方法来检测 Primary 和 Backup 的健康状况:

  1. 和 Primary/Backup 进行心跳。
  2. 监控 logging channel。

主从切换

如何实现主从间的切换?在 Primary 宕机后,Backup 声称具有 Primary 的 MAC 地址,然后让 ARP 缓存表过期,就将打向某个 IP 的流量从 Primary 切换到了 Backup。

切换后,原先的 Backup 成为新的 Primary,对外进行回复。然后利用 VMotion 的技术在和新 Primary 共享外存的地方启动一个副本,并且建立日志通道。

不确定性事件

都有哪些不确定性(Non-deterministic)操作(operations)和事件(events)?

  • 输入的不确定性。系统中断事件。
  • 奇怪指令。比如随机数、依赖时间戳的指令。
  • 多核。不同机器可能以不同的方式在多核上交替运行指令。

对于不确定性操作,需要保留充足的信息到日志通道中,以使 Backup 可以进行同样的状态改变,并且产生同样输出。对于不确定性事件,如时钟信号中断和 IO 完成中断,不仅需要记录事件本身,也要记录下事件发生的指令序列的位置,由此才能在 Backup 上确定性复现。

Logging Channel

为了进行容错(FT),我们使用日志条目(log entry )来记录 Primary 上发生的事件;但我们并没有将这些日志写到硬盘中,而是将其通过日志通道(logging channel)传送到 Backup 上进行实时确定性的重建(deterministic replay)。每个 LogEntry 可能包含以下数据:

  1. 指令编号
  2. 指令类型
  3. 数据

DMA

DMA 能够直接将数据从网口拷贝到内存,而不经过 CPU。这时需要 VMM 强行中断,拷贝来到的数据,模拟一个指令,并发送给 Backup。

OutPut rule

当 Primary 宕机时,其发送给 Backup 的最后一条指令也由于网络问题丢失了。当 Backup 接手时,如何处理该条指令丢失造成的不一致?
使用 Output Rule 保证。即 Primary 仅当在收到 Backup 该条指令的 ACK 时,才会将该指令结果发送给用户。当然,为缩短响应延迟,在 Backup 上,VMM 只需要将收到的指令缓存到 Buffer 中就可以回 ACK。而且,Primary 只是会延迟将回复发送给用户,以等待 Backup 的 ACK,但在这段等待时间内并不用真停止执行,毕竟网络请求回复是异步的,Primary 可以并行的做其他事情。

image.png

在 Primary 宕机后,Backup 接管时,可能会产生重复的结果。但是由于 P/B 共用 TCP channel,SEQ 也会被重用,会在 Client 端作为重复 TCP 帧被忽略,从而不会暴露到用户层面。

吞吐

如果 Primary 和 Backup 不在一个城市,每次通信都需要几 ms,那么久很难构建高吞吐系统。

网络分区

如果 P/B 之前的网络断了,但是同时都可以和 client 通信,就发生了 split-brain。解决办法是引入一个第三方仲裁,来保存谁可以进行应答:比如使用一个 TAS(Test-and-Set Server) 或者一个共享外存。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
10天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
9天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
401 130
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
3天前
|
存储 安全 前端开发
如何将加密和解密函数应用到实际项目中?
如何将加密和解密函数应用到实际项目中?
197 138
|
9天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
376 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3天前
|
存储 JSON 安全
加密和解密函数的具体实现代码
加密和解密函数的具体实现代码
195 136
|
21天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1347 8
|
8天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。
|
20天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1454 87