为什么?为什么?Java处理排序后的数组比没有排序的快?想过没有?

简介: 为什么?为什么?Java处理排序后的数组比没有排序的快?想过没有?

今天周日,没什么重要的事情要做,于是我早早的就醒来了。看了一会渡边淳一的书,内心逐渐感到平静——心情不佳的时候,书好像是最好的药物。心情平静了,就需要做一些更有意义的事情——逛技术网站,学习精进。


Stack Overflow 是我最喜欢逛的一个网站,它是我 Chrome 浏览器的第一个书签。



里面有很多很多经典的问题,其中一些回答,剖析得深入我心。就比如说这个:“为什么处理排序后的数组比没有排序的快?”


毫无疑问,直观印象里,排序后的数组处理起来就是要比没有排序的快,甚至不需要理由,就好像我们知道“夏天吃冰激凌就是爽,冬天穿羽绒服就是暖和”一样。


但本着“知其然知其所以然”的态度,我们确实需要去搞清楚到底是为什么?


来看一段 Java 代码:


/**
 * @author 沉默王二,一枚有趣的程序员
 */
public class SortArrayFasterDemo {
    public static void main(String[] args) {
        // 声明数组
        int arraySize = 32768;
        int data[] = new int[arraySize];
        Random rnd = new Random(0);
        for (int c = 0; c < arraySize; ++c) {
            data[c] = rnd.nextInt() % 256;
        }
        // !!! 排序后,比没有排序要快
        Arrays.sort(data);
        // 测试
        long start = System.nanoTime();
        long sum = 0;
        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128) {
                    sum += data[c];
                }
            }
        }
        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
    }
}


这段代码非常简单,我来解释一下:


声明一个指定长度(32768)的数组。


声明一个 Random 随机数对象,种子是 0;rnd.nextInt() % 256 将会产生一个余数,余数的绝对值在 0 到 256 之间,包括 0,不包括 256,可能是负数;使用余数对数组进行填充。


使用 Arrays.sort() 进行排序。


通过 for 循环嵌套计算数组累加后的结果,并通过 System.nanoTime() 计算前后的时间差,精确到纳秒级。


我本机的环境是 Mac OS,内存 16 GB,CPU Intel Core i7,IDE 用的是 IntelliJ IDEA,排序后和未排序后的结果如下:


排序后:2.811633398

未排序:9.41434346


时间差还是很明显的,对吧?未排序的时候,等待结果的时候让我有一种担心:什么时候结束啊?不会结束不了吧?


读者朋友们有没有玩过火炬之光啊?一款非常经典的单机游戏,每一个场景都有一副地图,地图上有很多分支,但只有一个分支可以通往下一关;在没有刷图之前,地图是模糊的,玩家并不知道哪一条分支是正确的。


如果侥幸跑的是一条正确的分支,那么很快就能到达下一关;否则就要往回跑,寻找正确的那条分支,需要花费更多的时间,但同时也会收获更多的经验和声望。


作为一名玩过火炬之光很久的老玩家,几乎每一幅地图我都刷过很多次,刷的次数多了,地图差不多就刻进了我的脑袋,即便是一开始地图是模糊的,我也能凭借经验和直觉找到最正确的那条分支,就省了很多折返跑的时间。


读者朋友们应该注意到了,上面的代码中有一个 if 分支——if (data[c] >= 128),也就是说,如果数组中的值大于等于 128,则对其进行累加,否则跳过。


那这个代码中的分支就好像火炬之光中的地图分支,如果处理器能够像我一样提前预判,那累加的操作就会快很多,对吧?


处理器的内部结构我是不懂的,但它应该和我的大脑是类似的,遇到 if 分支的时候也需要停下来,猜一猜,到底要不要继续,如果每次都猜对,那显然就不需要折返跑,浪费时间。


这就是传说中的分支预测!


我需要刷很多次图才能正确地预测地图上的路线,处理器需要排序才能提高判断的准确率。


计算机发展了这么多年,已经变得非常非常聪明,对于条件的预测通常能达到 90% 以上的命中率。但是,如果分支是不可预测的,那处理器也无能为力啊,对不对?


排序后花费的时间少,未排序花费的时间多,罪魁祸首就在 if 语句上。


if (data[c] >= 128) {

   sum += data[c];

}



数组中的值是均匀分布的(-255 到 255 之间),至于是怎么均匀分布的,我们暂且不管,反正由 Random 类负责。


为了方便讲解,我们暂时忽略掉负数的那一部分,从 0 到 255 说起。


来看经过排序后的数据:


data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...

branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...


      = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT



N 是小于 128 的,将会被 if 条件过滤掉;T 是将要累加到 sum 中的值。


再来看未排序的数据:


data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, 133, ...

branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...


      = TTNTTTTNTNNTTTN ...  



完全没有办法预测。


对比过后,就能发现,排序后的数据在遇到分支预测的时候,能够轻松地过滤掉 50% 的数据,对吧?是有规律可循的。


那假如说不想排序,又想节省时间,有没有办法呢?


如果你直接问我的话,我肯定毫无办法,两手一摊,一副无奈脸。不过,Stack Overflow 以上帝视角给出了答案。


把:


if (data[c] >= 128) {

   sum += data[c];

}


更换为:


int t = (data[c] - 128) >> 31;

sum += ~t & data[c];


通过位运算消除了 if 分支(并不完全等同),但我测试了一下,计算后的 sum 结果是相同的。


/**
 * @author 沉默王二,一枚有趣的程序员
 */
public class SortArrayFasterDemo {
    public static void main(String[] args) {
        // 声明数组
        int arraySize = 32768;
        int data[] = new int[arraySize];
        Random rnd = new Random();
        for (int c = 0; c < arraySize; ++c) {
            data[c] = rnd.nextInt() % 256;
        }
        // 测试
        long start = System.nanoTime();
        long sum = 0;
        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128) {
                    sum += data[c];
                }
            }
        }
        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
        // 测试
        long start1 = System.nanoTime();
        long sum1 = 0;
        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                int t = (data[c] - 128) >> 31;
                sum1 += ~t & data[c];
            }
        }
        System.out.println((System.nanoTime() - start1) / 1000000000.0);
        System.out.println("sum1 = " + sum1);
    }
}

输出结果如下所示:


8.734795196

sum = 156871800000

1.596423307

sum1 = 156871800000



数组累加后的结果是相同的,但时间上仍然差得非常多,这说明时间确实耗在分支预测上——如果数组没有排序的话。


最后,不得不说一句,大神级程序员不愧是大神级程序员,懂得位运算的程序员就是屌。


建议还在读大学的读者朋友多读一读《计算机操作系统原理》这种涉及到底层的书,对成为一名优秀的程序员很有帮助。毕竟大学期间,学习时间充分,社会压力小,能够做到心无旁骛,加油!


相关文章
|
3月前
|
存储 缓存 Java
Java数组全解析:一维、多维与内存模型
本文深入解析Java数组的内存布局与操作技巧,涵盖一维及多维数组的声明、初始化、内存模型,以及数组常见陷阱和性能优化。通过图文结合的方式帮助开发者彻底理解数组本质,并提供Arrays工具类的实用方法与面试高频问题解析,助你掌握数组核心知识,避免常见错误。
|
2月前
|
Java
Java 数组学习笔记
本文整理Java数组常用操作:遍历、求和、查找、最值及二维数组行求和等典型练习,涵盖静态初始化、元素翻倍、去极值求平均等实例,帮助掌握数组基础与应用。
|
4月前
|
监控 Java API
Java语言按文件创建日期排序及获取最新文件的技术
这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性,对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中,根据具体情况,可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。
253 14
|
4月前
|
存储 Java 索引
java 数组
在 Java 中,数组是一种数据结构,用于存储多个相同类型的数据元素。数组的大小一旦创建后就不能改变,因此它是固定长度的。Java 数组是一种 对象,即使它存储的值是基本类型(如 int、double 等),它也是一个对象引用。
139 0
|
6月前
|
存储 人工智能 Java
打乱数组内容引发的问题( Java)
本文介绍了两种实现数组随机打乱的方法,并深入探讨了Java中原始数据类型与对象类型的差异。方法一通过自定义随机数交换数组元素位置,方法二借助`Collections.shuffle()`函数完成数组打乱。同时,文章详细解析了`int`和`Integer`的区别,包括声明方式、内存占用、初始化以及对象特性等,并讲解了自动装箱与拆箱的功能,帮助读者更好地理解Java的基础知识。
110 0
|
8月前
|
人工智能 Java
Java 中数组Array和列表List的转换
本文介绍了数组与列表之间的相互转换方法,主要包括三部分:1)使用`Collections.addAll()`方法将数组转为列表,适用于引用类型,效率较高;2)通过`new ArrayList&lt;&gt;()`构造器结合`Arrays.asList()`实现类似功能;3)利用JDK8的`Stream`流式计算,支持基本数据类型数组的转换。此外,还详细讲解了列表转数组的方法,如借助`Stream`实现不同类型数组间的转换,并附带代码示例与执行结果,帮助读者深入理解两种数据结构的互转技巧。
572 1
Java 中数组Array和列表List的转换
|
8月前
|
存储 监控 Java
《从头开始学java,一天一个知识点》之:数组入门:一维数组的定义与遍历
**你是否也经历过这些崩溃瞬间?** - 看了三天教程,连`i++`和`++i`的区别都说不清 - 面试时被追问&quot;`a==b`和`equals()`的区别&quot;,大脑突然空白 - 写出的代码总是莫名报NPE,却不知道问题出在哪个运算符 这个系列就是为你打造的Java「速效救心丸」!我们承诺:每天1分钟,地铁通勤、午休间隙即可完成学习;直击痛点,只讲高频考点和实际开发中的「坑位」;拒绝臃肿,没有冗长概念堆砌,每篇都有可运行的代码标本。明日预告:《多维数组与常见操作》。 通过实例讲解数组的核心认知、趣味场景应用、企业级开发规范及优化技巧,帮助你快速掌握Java数组的精髓。
190 23
|
8月前
|
存储 Java 索引
Java 复制数组
本文介绍了Java中数组的基础知识与常用操作,包括数组的概念、创建、访问元素、遍历、复制、排序和搜索等方法。同时详细讲解了数组的五种赋值方式,并通过代码示例演示了求总和平均值、最大最小值、升序降序排序及Arrays类的常用方法。内容深入浅出,适合初学者学习掌握Java数组的核心功能与应用场景。
118 2
|
7月前
|
存储 Java 数据挖掘
Java 中数组的多种定义方式
本文深入解析了Java中数组的多种定义方式,涵盖基础的`new`关键字创建、直接初始化、动态初始化,到多维数组、`Arrays.fill()`方法以及集合类转换为数组等高级用法。通过理论与实践结合的方式,探讨了每种定义方法的适用场景、优缺点及其背后的原理,帮助开发者掌握高效、灵活的数组操作技巧,从而编写更优质的Java代码。
359 0
下一篇
oss云网关配置