【并发编程的艺术】详解指令重排序与数据依赖

2023-09-02 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本章详细描述了指令重排序的场景，条件，以及数据依赖、控制依赖对指令重排序的影响。总结如下：单线程程序，对存在控制依赖的操作执行重排序，不会改变执行结果；但在多线程程序中，对存在控制依赖的操作执行重排序，可能会改变程序的执行结果！这就是多线程执行时出现并发问题的根本原因，切记。

系列文章：

【并发编程的艺术】JVM 体系与内存模型

【并发编程的艺术】JAVA 并发机制的底层原理

【并发编程的艺术】JAVA 原子操作实现原理

【并发编程的艺术】JVM 内存模型

上一篇我们讲到了处理器在执行时，会对指令进行重排序，而这会导致数据一致性问题。对指令重排的理解非常重要，这也是并发问题出现的最大原因。

一数据依赖性

并发出现在两个线程的操作之间，如果两个操作访问的是同一个变量，且这两个操作中至少有一个是写操作，那么这两个操作之间就存在数据依赖。数据依赖包括以下三种类型：

1.1 写后读

对变量写之后，再读这个变量。代码示例（操作变量a）：

a=1;
b=a;

1.2 写后写

两个操作，第一个操作是写这个变量，然后另一个操作继续写这个变量。示例代码（变量a）：

a=1;
a=2;

1.3 读后写

两个操作，先读后写。示例代码（针对变量b）：

a=b;
b=1;

编译器和处理器对操作（指令）重排序，会遵守数据依赖性，而不会改变存在数据依赖关系的两个操作的执行顺序。这点至关重要。

另外需要注意的是，这里提到的数据依赖性，只针对单个处理器中执行的指令序列，和但线程中执行的操作，不同处理器之间，和不同线程之间的数据依赖性不会被考虑。

二 as-if-serial语义

这个语义是指，不论怎样重排序，（单线程）程序的执行结果不能被改变。编译器、处理器都必须遵守as-if-serial语义。

这个语义也就是上一章所说到的，编译器和处理器不会对存在数据依赖关系的操作做重排序，因为这种重排序会改变结果。通过下面示例我们用以说明数据依赖情况:

double pi = 3.14; //A
double r = 1.0; //B
double area = pi * r * r; //C

上面代码块中，A,B,C三个操作的依赖关系如下图所示：

如上图所示，A、B两个操作都与C有依赖关系，所以C不能被重排到A、B操作之前。但A与B之间没有依赖，所以编译器与处理器可以重排A、B之间的执行顺序。

（1）按照代码编写的顺序执行： A->B->C，执行结果area = 3.14；

（2）A、B之间重排，执行顺序为： B->A->C，执行结果依然是 area = 3.14

由此可见，正常情况下，我们认为代码是按照编写顺序执行只是一个幻觉。实际上即使是单线程中，实际执行顺序也可能与代码编写的顺序不同。但as-if-serial语义能够保证这些重排并不会影响执行结果。

三程序顺序规则

即happens-before规则。上面的计算代码中存在3个happens-before关系：

1）A happens-before B；

2）B happens-before C；

3）A happens-before C；这个是基于1）和 2）的传递得到的

这里的1），在实际执行时B是可能在A之前执行的。即使有A happens-before B，JMM也并不要求A一定要在B执行之前执行，而是只要求前一个操作（执行结果）对后一个操作可见。上面示例中，A的执行结果不需要对B可见；而且重排序A 和 B之后的结果，与A和B按照happens-before规则执行的结果一致，因此JMM认为这种重排序是合法的（not illegal），所以允许这样的中排序。

四重排序对多线程的影响

前面提到，指令重排的规则是针对单线程的，以保证在单线程执行的情况下，重排序不影响执行结果。那么多线程下是否也是？会带来什么样的影响？下面示例代码中，flag是一个标记变量，标记a是否被写入。

public class ReorderExample {
    int a = 0;
    boolean flag = false;
    public void writer(){
        a = 1;      // 1
        flag = true;     // 2
    }
    public void reader(){
        if(flag){     // 3
           int i = a * a;     // 4
           ......
        }
    }
}

我们假设有两个线程A 和 B，a先执行writer()，然后B执行reader()，线程B在执行操作4时，不一定能看到A对共享变量a的写入！！！这是因为，操作1 和 2没有数据依赖，编译器和处理器可以对这两个操作重排；同样，3 和 4 没有数据依赖（尽管存在着控制依赖），所以也可以对这两个操作重排。也就是说，1 和 2发生重排时，程序可能会按照下面的时序图执行：

在这样的场景下，多线程程序的语义被重排破坏了。

3 和 4重排时：

在程序中3 和 4有控制依赖关系（if判断条件，符合时才执行下面的代码块）。当存在控制依赖时，会影响指令序列执行的并行度。因此，编译器和处理器会采用猜测执行来克服控制依赖性对并行度的影响。当处理器猜测执行时，运行B程序的处理器可以提前读取并计算a*a，然后把结果临时存储在“重排序缓冲”（Reorder Buffer，ROB）的硬件缓存中；当3的判断为真时，再把这个结果写入变量i，如上图所示。这样的执行实质上对3 和 4 做了重排，破坏了语义。

五总结

本章详细描述了指令重排序的场景，条件，以及数据依赖、控制依赖对指令重排序的影响。总结如下：

单线程程序，对存在控制依赖的操作执行重排序，不会改变执行结果；但在多线程程序中，对存在控制依赖的操作执行重排序，可能会改变程序的执行结果！这就是多线程执行时出现并发问题的根本原因，切记。

【并发编程的艺术】详解指令重排序与数据依赖

一数据依赖性

1.1 写后读

1.2 写后写

1.3 读后写

二 as-if-serial语义

三程序顺序规则

四重排序对多线程的影响

五总结

热门文章

最新文章

相关电子书

相关实验场景

【并发编程的艺术】详解指令重排序与数据依赖

一 数据依赖性

1.1 写后读

1.2 写后写

1.3 读后写

二 as-if-serial语义

三 程序顺序规则

四 重排序对多线程的影响

五 总结

热门文章

最新文章

相关电子书

相关实验场景

一数据依赖性

三程序顺序规则

四重排序对多线程的影响

五总结