2.CPU B 执行 b = a + 1:
(1)CPU B 收到来自于 CPU A 的 Read Response,这时候这里面 a 还是等于 0。
(2)CPU B 将 a + 1 的结果(0+1=1)存入缓存中已经包含的 b。
3.CPU B 执行 assert(b == 2) 失败
这个错误的原因主要是我们在加载到缓存的时候没考虑从 store buffer 最新的值,所以我们可以加上一步,在加载到缓存的时候从 store buffer 读取最新的值。这样,就能保证上面我们看到的结果 b 最后是 2:
5.2.4. 简易 CPU 模型 - 避免 Store Buffer 带来的乱序执行 - 内存屏障
我们下面再来看一个示例:假设有两个变量 a 和 b,不会处于同一个缓存行,初始都是 0。假设 CPU A (缓存行里面包含 b,这个缓存行状态是 Exclusive)执行:
假设 CPU B 执行:
如果一切按照程序顺序预期执行,那么我们期望 CPU B 执行 assert(a == 1) 是成功的,但是我们来看下面这种执行流程:
1.CPU A 执行 a = 1:
(1)CPU A 缓存里面没有 a,并且要修改,所以发布 Read Invalidate 消息。
(2)CPU A 将 a 的修改(a=1)放入 Storage Buffer
2.CPU B 执行 while (b == 0) continue:
(1)CPU B 缓存里面没有 b,发布 Read 消息。
3.CPU A 执行 b = 1:
(1)CPU A 缓存行里面有 b,并且状态是 Exclusive,直接更新缓存行。
(2)之后,CPU A 收到了来自于 CPU B 的关于 b 的 Read 消息。
(3)CPU A 响应缓存中的 b = 1,发送 Read Response 消息,并且缓存行状态修改为 Shared
(4)CPU B 收到 Read Response 消息,将 b 放入缓存
(5)CPU B 代码可以退出循环了,因为 CPU B 看到 b 此时为 1
4.CPU B 执行 assert(a == 1),但是由于 a 的更改还没更新,所以失败了。
像这种乱序,CPU 一般是无法自动控制的,但是一般会提供内存屏障指令,告诉 CPU 防止乱序,例如:
smp_mb() 会让 CPU 将 Store Buffer 中的内容刷入缓存。加入这个内存屏障指令后,执行流程变成:
1.CPU A 执行 a = 1:
(1)CPU A 缓存里面没有 a,并且要修改,所以发布 Read Invalidate 消息。
(2)CPU A 将 a 的修改(a=1)放入 Storage Buffer
2.CPU B 执行 while (b == 0) continue:
(1)CPU B 缓存里面没有 b,发布 Read 消息。
3.CPU A 执行 smp_mb():
(1)CPU A 将当前 Store Buffer 的所有条目打上标记(目前这里只有 a,就是对 a 打上标记)
4.CPU A 执行 b = 1:
(1)CPU A 缓存行里面有 b,并且状态是 Exclusive,但是由于 Store Buffer 中有标记的条目 a,不直接更新缓存行,而是放入 Store Buffer(与 a 不同,没有标记)。并发出 Invalidate 消息。
(2)之后,CPU A 收到了来自于 CPU B 的关于 b 的 Read 消息。
(3)CPU A 响应缓存中的 b = 0,发送 Read Response 消息,并且缓存行状态修改为 Shared
(4)CPU B 收到 Read Response 消息,将 b 放入缓存
(5)CPU B 代码不断循环,因为 CPU B 看到 b 还是 0
(6)CPU A 收到前面对于 a 的 "Read Invalidate" 相关的消息响应,将 Store Buffer 中打好标记的 a 条目刷入缓存,这个缓存行状态为 modified。
(7)CPU B 收到 CPU A 发的 Invalidate b 的消息,将 b 的缓存行失效,回复 Invalidate Acknowledge
(8)CPU A 收到 Invalidate Acknowledge,将 b 从 Store Buffer 刷入缓存。
(9)由于 CPU B 不断读取 b,但是 b 已经不在缓存中了,所以发送 Read 消息。
(10)CPU A 收到 CPU B 的 Read 消息,设置 b 的缓存行状态为 shared,返回缓存中 b = 1 的 Read Response
(11)CPU B 收到 Read Response,得知 b = 1,放入缓存行,状态为 shared
5.CPU B 得知 b = 1,退出 while (b == 0) continue 循环
6.CPU B 执行 assert(a == 1)(这个比较简单,就不画图了):
(1)CPU B 缓存中没有 a,发出 Read 消息。
(2)CPU A 从缓存中读取 a = 1,响应 Read Response
(3)CPU B 执行 assert(a == 1) 成功
Store Buffer 一般都会比较小,如果 Store Buffer 满了,那么还是会发生 Stall 的问题。我们期望 Store Buffer 能比较快的刷入 CPU 缓存,这是在收到对应的 Invalidate Acknowledge 之后进行的。但是,其他的 CPU 可能在忙,没发很快应对收到的 Invalidate 消息并响应 Invalidate Acknowledge,这样可能造成 Store Buffer 满了导致 CPU Stall 的发生。所以,可以引入每个 CPU 的 Invalidate queue 来缓存要处理的 Invalidate 消息。