6.824 2020 视频笔记四：VM-FT-阿里云开发者社区

6.824 2020 视频笔记四：VM-FT

2022-11-16 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 6.824 2020 视频笔记四：VM-FT

MIT 今年终于主动在 Youtube 上放出了随堂视频资料，之前跟过一半这门课，今年打算刷一下视频，写写随堂笔记。该课程以分布式基础理论：容错、备份、一致性为脉络，以精选的工业级系统论文为主线，再填充上翔实的阅读材料和精到的课程实验，贯通学术理论和工业实践，实在是一门不可多得的分布式系统佳课。课程视频和资料看这里，本篇是第四节课笔记，VMWare 的 P/B 系统。

挑战

需要同步什么状态？
Primary 需要等 Backup 吗？
Primary 宕机时，如何进行切换？
在 Primary/Backup 宕机时，如何进行快速恢复。

同步状态的层级：

应用层（Application state）。如 GFS，更为高效，只需要发送高维操作即可，缺点是需要在应用层进行容错。
机器层（Machine level）。可以让运行在服务器上的应用无需改动而获取容错能力。但需要细粒度的同步机器事件（中断、DMA）；并且需要修改机器底层实现以发送这些事件。

而 VM-FT 选择了后者，能力更强大，但也做出了更多牺牲。

VM-FT 系统使用一个额外的虚拟层 VMMonitor（ hypervisor == monitor == VMM ），当 client 请求到达 Primary 时，VMMonitor 一方面向本机转发请求、一方面向 Backup 的 VMMonitor 同步请求。处理完请求得到结果时，Primary 的 VMMonitor 会回复 Client，而 Backup 的 VMMonitor 会丢弃 Backup 产生的回复。

使用两种方法来检测 Primary 和 Backup 的健康状况：

和 Primary/Backup 进行心跳。
监控 logging channel。

主从切换

如何实现主从间的切换？在 Primary 宕机后，Backup 声称具有 Primary 的 MAC 地址，然后让 ARP 缓存表过期，就将打向某个 IP 的流量从 Primary 切换到了 Backup。

切换后，原先的 Backup 成为新的 Primary，对外进行回复。然后利用 VMotion 的技术在和新 Primary 共享外存的地方启动一个副本，并且建立日志通道。

不确定性事件

都有哪些不确定性（Non-deterministic）操作（operations）和事件（events）？

输入的不确定性。系统中断事件。
奇怪指令。比如随机数、依赖时间戳的指令。
多核。不同机器可能以不同的方式在多核上交替运行指令。

对于不确定性操作，需要保留充足的信息到日志通道中，以使 Backup 可以进行同样的状态改变，并且产生同样输出。对于不确定性事件，如时钟信号中断和 IO 完成中断，不仅需要记录事件本身，也要记录下事件发生的指令序列的位置，由此才能在 Backup 上确定性复现。

Logging Channel

为了进行容错（FT），我们使用日志条目（log entry ）来记录 Primary 上发生的事件；但我们并没有将这些日志写到硬盘中，而是将其通过日志通道（logging channel）传送到 Backup 上进行实时确定性的重建（deterministic replay）。每个 LogEntry 可能包含以下数据：

指令编号
指令类型
数据

DMA

DMA 能够直接将数据从网口拷贝到内存，而不经过 CPU。这时需要 VMM 强行中断，拷贝来到的数据，模拟一个指令，并发送给 Backup。

OutPut rule

当 Primary 宕机时，其发送给 Backup 的最后一条指令也由于网络问题丢失了。当 Backup 接手时，如何处理该条指令丢失造成的不一致？
使用 Output Rule 保证。即 Primary 仅当在收到 Backup 该条指令的 ACK 时，才会将该指令结果发送给用户。当然，为缩短响应延迟，在 Backup 上，VMM 只需要将收到的指令缓存到 Buffer 中就可以回 ACK。而且，Primary 只是会延迟将回复发送给用户，以等待 Backup 的 ACK，但在这段等待时间内并不用真停止执行，毕竟网络请求回复是异步的，Primary 可以并行的做其他事情。

在 Primary 宕机后，Backup 接管时，可能会产生重复的结果。但是由于 P/B 共用 TCP channel，SEQ 也会被重用，会在 Client 端作为重复 TCP 帧被忽略，从而不会暴露到用户层面。

吞吐

如果 Primary 和 Backup 不在一个城市，每次通信都需要几 ms，那么久很难构建高吞吐系统。

网络分区

如果 P/B 之前的网络断了，但是同时都可以和 client 通信，就发生了 split-brain。解决办法是引入一个第三方仲裁，来保存谁可以进行应答：比如使用一个 TAS（Test-and-Set Server）或者一个共享外存。

6.824 2020 视频笔记四：VM-FT

挑战