堆排序就是这么容易

简介: 堆排序就是这么容易

堆排序在常用排序算法中属于比较难理解的,本篇就以最简单的方式讲解。如果还有什么疑问,

1.什么是堆?

  • 弄清楚**堆排序以前,我们先要知道什么是堆**?

堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。

下图:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ryNDVF0L-1592534927430)(大顶堆.jpg)]


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LyP4sXDA-1592534927435)(小顶堆.jpg)]


简单用公式描述一下就是:


大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]


小顶堆:arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]

问题二:什么是**完全二叉树**?

百度百科:

一棵深度为k的有n个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。

2.堆排序

百度百科:

堆排序(英语:Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。

3.原理

堆排序的基本思想是:将待排序序列构造成一个大顶堆,此时,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换,此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆,这样会得到n个元素的次小值。如此反复执行,便能得到一个有序序列了

步骤一 构造初始堆。将给定无序序列构造成一个大顶堆(一般升序采用大顶堆,降序采用小顶堆)。


a.假设给定无序序列结构如下

  20200619105222857.png

 

 

 b.此时我们从最后一个非叶子结点开始(叶结点自然不用调整,第一个非叶子结点 arr.length/2-1=5/2-1=1,也就是下面的6结点),从左至右,从下至上进行调整。

 

  20200619105230639.png

  c.找到第二个非叶节点4,由于[4,9,8]中9元素最大,4和9交换。

  

  

  

  d.这时,交换导致了子根[4,5,6]结构混乱,继续调整,[4,5,6]中6最大,交换4和6。

  

  

  

  此时,就将一个无需序列构造成了一个大顶堆。

步骤二 将堆顶元素与末尾元素进行交换,使末尾元素最大。然后继续调整堆,再将堆顶元素与末尾元素交换,得到第二大元素。如此反复进行交换、重建、交换。

a.将堆顶元素9和末尾元素4进行交。

 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ogTty27t-1592534927463)(步骤二a.png)]

 

 b.重新调整结构,使其继续满足堆定义。

 

 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Iu9awmmh-1592534927465)(步骤二b.png)]

 

 c.再将堆顶元素8与末尾元素5进行交换,得到第二大元素8。

 

 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bgWmIdBm-1592534927469)(步骤二c.png)]

 

 后续过程,继续进行调整,交换,如此反复进行,最终使得整个序列有序。

 

 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nEs3BD5x-1592534927473)(步骤二d.png)]

-  再简单总结下堆排序的基本思路:

a.将无需序列构建成一个堆,根据升序降序需求选择大顶堆或小顶堆;

b.将堆顶元素与末尾元素交换,将最大元素"沉"到数组末端;

c.重新调整结构,使其满足堆定义,然后继续交换堆顶元素与当前末尾元素,反复执行调整+交换步骤,直到整个序列有序。

4.代码

代码是基于 Java语言。

package cn.javapub;

import java.util.Arrays;

public class HeapSort {

    public int[] sort(int[] sourceArray) throws Exception {
        // 对 arr 进行拷贝,不改变参数内容
        int[] arr = Arrays.copyOf(sourceArray, sourceArray.length);

        int len = arr.length;

        //构建大顶堆
        buildMaxHeap(arr, len);

        //调整堆结构+交换堆顶元素与末尾元素
        for (int i = len - 1; i > 0; i--) {
            swap(arr, 0, i);//将堆顶元素与末尾元素进行交换
            len--;
            heapify(arr, 0, len);//重新对堆进行调整
        }
        return arr;
    }

    private void buildMaxHeap(int[] arr, int len) {
        for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
            //从第一个非叶子结点从下至上,从右至左调整结构
            heapify(arr, i, len);
        }
    }

    //调整大顶堆
    private void heapify(int[] arr, int i, int len) {
        int left = 2 * i + 1;
        int right = 2 * i + 2;
        int largest = i;

        if (left < len && arr[left] > arr[largest]) {
            largest = left;
        }

        if (right < len && arr[right] > arr[largest]) {
            largest = right;
        }

        if (largest != i) {
            swap(arr, i, largest);
            heapify(arr, largest, len);
        }
    }
    
    //交换元素
    private void swap(int[] arr, int i, int j) {
        int temp = arr[i];
        arr[i] = arr[j];
        arr[j] = temp;
    }

    public static void main(String[] args) throws Exception {
        int[] arr = {5, 1, 4, 2, 3};
        HeapSort heapSort = new HeapSort();
        int[] sort = heapSort.sort(arr);
        System.out.println(Arrays.toString(sort));
    }

}

返回结果:

[1, 2, 3, 3, 5]

5.最后

堆排序是一种选择排序,整体主要由构建初始堆+交换堆顶元素和末尾元素并重建堆两部分组成。其中构建初始堆经推导复杂度为O(n),在交换并重建堆的过程中,需交换n-1次,而重建堆的过程中,根据完全二叉树的性质,[log2(n-1),log2(n-2)…1]逐步递减,近似为nlogn。所以堆排序时间复杂度一般认为就是O(nlogn)级。

6.扩展阅读

光说不练假把式,看看下面题目。

题目:1亿 数据中找出 k 大的数据(内存不够的情境,磁盘足够大)


方法一:在内存中新建一个 k 的小顶锥,如果插入的元素比锥顶大,则把锥顶的元素扔掉,然后重新调整使其变成小顶锥,重复该过程,最后剩下的 k 个元素就是最大的。

同理,当找出k个最小数字的话,意味着剩下的这k个数组元素为最小的,这就要确保每次排序要把大的都扔掉,因此要新建大顶堆。


方法二:采用分治法,划分为若干个小文件(通常利用hash(x)%M,m是划分的大小,来进行划分),每个文件依次找出前k大个,然后放在一起再找出k大个。每次文件找出k大个,可以利用快速排序,每次 快速排序 分为两部分(一边是小的,一边是大的),如果大的部分长度大于k,接着利用快速排序,直到大的部分小于k(假设为n)(说明这些肯定是这么多数中最大的),然后对剩下的部分进行快排,找出前(k-n)个最大的,然后在对剩下的进行快排,最后会发现递归到最后,只需要找到最大的那个数就行了。这种思想是分治思想,一直分下去。


方法三:hash,采用hash主要是先去重,然后再利用分治或者是堆排序进行查找。


这个题目受限于内存不够情况,当足够大内存和多核情况,我们可以划分成一个个小任务单独执行,最后一个线程再合并。


(1)单机+单核+足够大内存

如果需要查找10亿个查询次(每个占8B)中出现频率最高的10个,考虑到每个查询词占8B,则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存,直接在内存中对查询次进行排序,顺序遍历找出10个出现频率最大的即可。这种方法简单快速,使用。然后,也可以先用HashMap求出每个词出现的频率,然后求出频率最大的10个词。


(2)单机+多核+足够大内存

这时可以直接在内存总使用Hash方法将数据划分成n个partition,每个partition交给一个线程处理,线程的处理逻辑同(1)类似,最后一个线程将结果归并。

该方法存在一个瓶颈会明显影响效率,即数据倾斜。每个线程的处理速度可能不同,快的线程需要等待慢的线程,最终的处理速度取决于慢的线程。而针对此问题,解决的方法是,将数据划分成c×n个partition(c>1),每个线程处理完当前partition后主动取下一个partition继续处理,知道所有数据处理完毕,最后由一个线程进行归并。


(3)单机+单核+受限内存

这种情况下,需要将原数据文件切割成一个一个小文件,如次啊用hash(x)%M,将原文件中的数据切割成M小文件,如果小文件仍大于内存大小,继续采用Hash的方法对数据文件进行分割,知道每个小文件小于内存大小,这样每个文件可放到内存中处理。采用(1)的方法依次处理每个小文件。


(4)多机+受限内存

这种情况,为了合理利用多台机器的资源,可将数据分发到多台机器上,每台机器采用(3)中的策略解决本地的数据。可采用hash+socket方法进行数据分发。


对于这类问题,更好解决方案是使用 MapReduce 处理任务。

目录
相关文章
|
3月前
|
存储 搜索推荐 算法
堆排序讲解
堆排序讲解
27 4
|
6月前
|
存储
|
8月前
|
算法 搜索推荐 Java
选择排序 - 堆排序
选择排序 - 堆排序
选择排序 - 堆排序
|
8月前
|
搜索推荐 算法 C++
C++堆排序的实现
C++堆排序的实现
|
8月前
|
存储
堆排序、快速排序和归并排序
堆排序、快速排序和归并排序
61 0
|
8月前
选择排序与堆排序
选择排序与堆排序
53 0
|
8月前
|
算法 搜索推荐 索引
堆排序详细解读
堆排序详细解读
70 0
|
8月前
|
搜索推荐 算法 Java
java排序算法:快速排序、归并排序、堆排序等
排序算法:快速排序、归并排序、堆排序等
106 0
|
机器学习/深度学习 算法 搜索推荐
排序算法:堆排序
关于排序算法中的堆排序的详细介绍,以及实现过程和时间复杂度的计算,附带图解。
118 1
|
算法 搜索推荐