【JavaDS】优先级队列(PriorityQueue),堆,Top-k问题

简介: 【JavaDS】优先级队列(PriorityQueue),堆,Top-k问题

一. 堆

1. 堆的概念

如果有一个关键码的集合K = {k0,k1, k2,…,kn-1},把它的所有元素按完全二叉树的顺序存储方式存储 在一 个一维数组中,并满足:Ki <= K2i+1 且 Ki<= K2i+2 (Ki >= K2i+1 且 Ki >= K2i+2) i = 0,1,2…,则称为 小堆(或大堆)。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。

堆的性质:

  • 堆中某个节点的值总是不大于或不小于其父节点的值;
  • 堆总是一棵完全二叉树

73d8c9be8b2a4960a39693770de0ac9a.png

2. 堆的存储方式

从堆的概念可知,堆是一棵完全二叉树,因此可以层序的规则采用顺序的方式来高效存储73d8c9be8b2a4960a39693770de0ac9a.png

注意:对于非完全二叉树,则不适合使用顺序方式进行存储,因为为了能够还原二叉树,空间中必须要存储空节点,就会导致空间利用率比较低。


假设i为节点在数组中的下标,则有:


如果i为0,则i表示的节点为根节点,否则i节点的双亲节点为 (i - 1)/2

如果2 * i + 1 小于节点个数,则节点i的左孩子下标为2 * i + 1,否则没有左孩子

如果2 * i + 2 小于节点个数,则节点i的右孩子下标为2 * i + 2,否则没有右孩子

3. 堆的创建

【向下调整】

首先我们需要知道堆的特点, 堆的堆顶的元素大于 (或小于) 子堆的元素大小,堆的本质就是一棵完全二叉树,堆采用顺序存储的方式来实现, 所以根据这些特点可以总结出堆的创建过程。


找到数组中最后一个子树所在位置,注意这里的子树不包含单独的叶子结点。

对该子树进行向下调整,如果要创建的是大根堆,找到该树两个子结点值较大的结点与根结点进行比较,如果这个子结点比根结点要大,则交换两结点的值,然后再对被调整的子结点作相同的调整(向下调整),直到被调整的子树满足大堆条件或下标超出数组的范围; 同样的思路, 如果建立的是小根堆 , 找到该树两个子结点值较小的结点与根结点进行比较,如果这个子结点比根结点要小,则交换两结点的值 , 然后再对被调整的子结点作相同的调整(向下调整),直到被调整的子树满足大堆条件或下标超出数组的范围

从最后一棵子树(该树不为叶子,最右边一棵高度为2的子树)开始调整,调整完后再向前找前一棵子树 , 以此类推, 直至调整完最后一棵(以堆顶结点所代表的树)结束,按此顺序对所有树进行向下调整,此时(大/小)堆就创建好了。

设最后一棵子树根结点所对应数组下标为parent,其左子树根结点为child,堆大小为len,根据二叉树的性质,下标会满足child = 2 ∗ parent + 1 ; parent = (child − 1 ) / 2 ;

最后一个结点下标为len−1,其父结点下标为(len−2) / 2 ; 也就是说 , 最后一棵子树根结点的下标为(len−2) / 2

对于向下调整中,以创建大根堆为例,如果一棵子树右结点存在且大于左结点的值,则child++保证child指向的是左右结点中较大的那一个

image.png

下面给出的是堆的基本成员属性,

public class MyHeap {
    public int[] elem;
    public int usedSize;//记录有效元素个数
    public static final int DEFAULT_SIZE = 10;//默认容量
    public MyHeap() {
        elem = new int[DEFAULT_SIZE];
    }
    //初始化数组
    public void initElem(int[] array) {
        for (int i = 0; i < array.length; i++) {
            this.elem[i] = array[i];
            usedSize++;
        }
    }
}

代码实现创建大根堆,

//调整数组元素,创建大根堆
    public void createHeap() {
        //从最后一个双亲节点开始向下调整
        for (int parent = (this.usedSize-1-1)/2; parent >= 0; parent--) {
            //向下调整
            shiftDown(parent, this.usedSize);
        }
    }
    /**
     * 向下调整
     * @param parent 每棵树的根节点位置
     * @param len 用来判断每棵子树调整的结束时机, 位置不能大于len
     */
    public void shiftDown(int parent, int len) {
        //计算左孩子位置
        int child = parent*2+1;
        //要判断左孩子是否存在
        while(child < len) {
            //确定右孩子是否存在,确定最大值
            if (child + 1 < len && elem[child] < elem[child+1]) {
                child++;
            }
            //走到这里child指向的一定是左右孩子中较大的
            if(elem[parent] < elem[child]) {
                int tmp = elem[parent];
                elem[parent] = elem[child];
                elem[child] = tmp;
                parent = child;
                child = 2*parent+1;
            }else {
                break;
            }
        }
    }

【建堆的时间复杂度】


建堆的过程是自下而上的,堆的本质就是一棵完全二叉树,不妨设该二叉树的高度为h,堆元素个数为n,建堆时需要对所有高度大于1的子树进行调整,最坏情况下该堆是一个满堆,设该堆所处层次为x(从1开始),则第x层次的子树需要调整h-x次,有2 ^ (h-1)个结点,由于只调整高度大于1的子树,因此x的范围为[1,h−1]73d8c9be8b2a4960a39693770de0ac9a.png

调整的次数为T(n):73d8c9be8b2a4960a39693770de0ac9a.png

我们发现T(n)为等比数列和减去h再加上1,等比数列求和公式为Sn=a1(1−qn)/(1−q)

T(n)=2∗(1−2h−1)/(−1)−h+1

T(n)=2 ^ h−h−173d8c9be8b2a4960a39693770de0ac9a.png

所以,建堆的时间复杂度为O(N)。

4. 元素入堆

按照如下步骤完成元素入堆:

  1. 先将元素放入到放入堆尾(注意:空间不够时需要扩容)
  2. 将最后新插入的节点向上调整,直到满足堆的性质

下面是对向上调整的说明:

在数组最后一个位置放入一个元素后,以大根堆为例, 这个元素所在的子树就可能不满足大根堆的条件了, 所以需要对该结点进行向上调整,让这棵子树再次满足大根堆, 如果做出了调整, 就需要一直先向上调整, 直至满足条件 ; 所谓向上调整就是比较 调整结点与父亲结点 值的大小,如果该结点值比较大,则与父亲结点交换值,否则不需调整,该堆已经满足大根堆条件,因为交换后不知道上面的子树是否为大根堆,所以需要对交换路径上所有的结点进行相同的向上调整,直到调整完堆顶,过程中出现父亲结点比较大则结束调整; 同样的如果是小根堆,思路是一样的, 只需要把把 调整结点与父亲结点 的比较方式改变一下即可.

下面的实现代码以大根堆为例:

public void offer(int val) {
        //判断空间是不是满了
        if(isFull()) {
            elem = Arrays.copyOf(elem, 2*elem.length);
        }
        elem[usedSize] = val;
        usedSize++;
        //向上调整
        shiftUp(usedSize-1);
    }
    public boolean isFull() {
        return usedSize == elem.length;
    }
    public void shiftUp(int child) {
        int parent = (child-1)/2;
        while(child > 0) {
            if (elem[parent] < elem[child]) {
                int tmp = elem[parent];
                elem[parent] = elem[child];
                elem[child] = tmp;
                child = parent;
                parent = (child-1)/2;
            }else{
                break;
            }
        }
    }

5. 元素出堆

注意出堆的元素一定是堆顶元素

按照如下步骤完成元素出堆:

  1. 将堆顶元素与堆尾元素交换,保存并删除堆尾元素。
  2. 将堆中有效数据个数减少一个
  3. 对堆顶元素向下调整,因为堆顶交换元素的路径可能会破坏大根堆(或小根堆)结构。
  4. 返回之前保存的堆尾元素,返回的是删除元素的值。

下面的实现代码以大根堆为例:

//堆的删除
    public int pop() {
        if(isEmpty()) {
            throw new EmptyHeapException("当前堆为空");
        }
        int tmp = elem[0];
        elem[0] = elem[usedSize-1];
        elem[usedSize-1] = tmp;
        usedSize--;
        shiftDown(0, usedSize);
        return tmp;
    }

6. 获取堆中元素

    //判断堆是否为空
    public boolean isEmpty() {
        return usedSize == 0;
    }
    //获取堆中元素
    public int peek() {
        if(isEmpty()) {
            throw new EmptyHeapException();
        }
        return elem[0];
    }
    //清空
    public void clear() {
        usedSize = 0;
    }
    public int size() {
        return usedSize;
    }

二. 优先级堆列(PriorityQueue)

1. 优先级队列

在优先级队列中,元素被赋予优先级。当访问元素时,具有最高优先级的元素最先删除。优先队列具有最高级先出 (first in, largest out)的行为特征,通常采用堆数据结构来实现; 比如说一个优先队列是由小根堆实现的,则该队列优先最小的元素出队,反之,优先队列由大根堆实现,则该队列优先最大的元素出队。

2. PriorityQueue的特性73d8c9be8b2a4960a39693770de0ac9a.png

关于PriorityQueue的使用要注意:


使用时必须导入PriorityQueue所在的包,即: import java.util.PriorityQueue;

PriorityQueue中放置的元素必须要能够比较大小,不能插入无法比较大小的对象,否则会抛出ClassCastException异常

不能插入null对象,否则会抛出NullPointerException

没有容量限制,可以插入任意多个元素,其内部可以自动扩容

插入和删除元素的时间复杂度为O(logN)

PriorityQueue底层使用了堆数据结构

PriorityQueue默认情况下是小堆 , 如果想要改变使用大根堆实现,则需要传入对象的比较器,或比较器内部类或lambda表达式所实现的比较器。

3. 集合框架中PriorityQueue的比较方式

集合框架中的PriorityQueue底层使用堆结构,因此其内部的元素必须要能够比较大小,PriorityQueue采用了:

Comparble和Comparator两种方式。

Comparble是默认的内部比较方式,如果用户插入自定义类型对象时,该类对象必须要实现Comparble接口,并覆写compareTo方法

用户也可以选择使用比较器对象,如果用户插入自定义类型对象时,必须要提供一个比较器类,让该类实现Comparator接口并覆写compare方法。

    // JDK中PriorityQueue的实现:
    public class PriorityQueue<E> extends AbstractQueue<E>
            implements java.io.Serializable {
        // ...
        // 默认容量
        private static final int DEFAULT_INITIAL_CAPACITY = 11;
        // 内部定义的比较器对象,用来接收用户实例化PriorityQueue对象时提供的比较器对象
        private final Comparator<? super E> comparator;
        // 用户如果没有提供比较器对象,使用默认的内部比较,将comparator置为null
        public PriorityQueue() {
            this(DEFAULT_INITIAL_CAPACITY, null);
        }
        // 如果用户提供了比较器,采用用户提供的比较器进行比较
        public PriorityQueue(int initialCapacity, Comparator<? super E> comparator) {
        // Note: This restriction of at least one is not actually needed,
        // but continues for 1.5 compatibility
            if (initialCapacity < 1)
                throw new IllegalArgumentException();
            this.queue = new Object[initialCapacity];
            this.comparator = comparator;
        }
        // ...
        // 向上调整:
        // 如果用户没有提供比较器对象,采用Comparable进行比较
        // 否则使用用户提供的比较器对象进行比较
        private void siftUp(int k, E x) {
            if (comparator != null)
                siftUpUsingComparator(k, x);
            else
                siftUpComparable(k, x);
        }
        // 使用Comparable
        @SuppressWarnings("unchecked")
        private void siftUpComparable(int k, E x) {
            Comparable<? super E> key = (Comparable<? super E>) x;
            while (k > 0) {
                int parent = (k - 1) >>> 1;
                Object e = queue[parent];
                if (key.compareTo((E) e) >= 0)
                    break;
                queue[k] = e;
                k = parent;
            }
            queue[k] = key;
        }
        // 使用用户提供的比较器对象进行比较
        @SuppressWarnings("unchecked")
        private void siftUpUsingComparator(int k, E x) {
            while (k > 0) {
                int parent = (k - 1) >>> 1;
                Object e = queue[parent];
                if (comparator.compare(x, (E) e) >= 0)
                    break;
                queue[k] = e;
                k = parent;
            }
            queue[k] = x;
        }
    }

下面的代码是定义一个的自定义类型, 要将自定义类型入堆, 自定义类型必须实现Comparble接口; 将第一个元素入堆时不涉及比较, 当第二个元素入堆就会涉及比较了;

class Person implements Comparable<Person>{
    int age;
    String name;
    public Person(int age, String name) {
        this.age = age;
        this.name = name;
    }
    @Override
    public int compareTo(Person o) {
        return this.age - o.age;
    }
    @Override
    public String toString() {
        return "Person{" +
                "age=" + age +
                ", name='" + name + '\'' +
                '}';
    }
}
public class Test {
    public static void main(String[] args) {
        PriorityQueue<Person> priorityQueue = new PriorityQueue<>();
        priorityQueue.offer(new Person(18,"张三"));
        priorityQueue.offer(new Person(20,"李四"));
    }
}

4. PriorityQueue常用构造方法

构造器 功能介绍
PriorityQueue() 创建一个空的优先级队列,默认容量是11
PriorityQueue(int initialCapacity) 创建一个初始容量为initialCapacity的优先级队列,注意: initialCapacity不能小于1,否则会抛IllegalArgumentException异 常
PriorityQueue(Collection< ? extends E > c) 用一个集合来创建优先级队列

观察这三个构造方法的源码, 其实在底层是又调用了含有两个参数的构造方法public PriorityQueue(int initialCapacity**,** Comparator<? super E> comparator), 除了设置容量的参数外, 另一个参数是一个比较器, 在调用时设置为了null;73d8c9be8b2a4960a39693770de0ac9a.png

73d8c9be8b2a4960a39693770de0ac9a.png73d8c9be8b2a4960a39693770de0ac9a.png73d8c9be8b2a4960a39693770de0ac9a.png

构造示例:

static void TestPriorityQueue(){
       // 创建一个空的优先级队列,底层默认容量是11
        PriorityQueue<Integer> q1 = new PriorityQueue<>();
       // 创建一个空的优先级队列,底层的容量为initialCapacity
        PriorityQueue<Integer> q2 = new PriorityQueue<>(100);
        ArrayList<Integer> list = new ArrayList<>();
        list.add(4);
        list.add(3);
        list.add(2);
        list.add(1);
        // 用ArrayList对象来构造一个优先级队列的对象
        // q3中已经包含了三个元素
        PriorityQueue<Integer> q3 = new PriorityQueue<>(list);
        System.out.println(q3.size());
        System.out.println(q3.peek());
    }

注意:默认情况下,PriorityQueue队列是小堆,如果需要大堆需要用户提供比较器

public static void main(String[] args) {
        PriorityQueue<Integer> priorityQueue1 = new PriorityQueue<>(new IntCmp());
        priorityQueue1.offer(1);
        priorityQueue1.offer(2);
        priorityQueue1.offer(3);
        System.out.println(priorityQueue1);
        //使用隐藏内部类创建基于大根堆的优先队列
        PriorityQueue<Integer> priorityQueue2 = new PriorityQueue<>(new Comparator<Integer>() {
            @Override
            public int compare(Integer o1, Integer o2) {
                return o2 - o1;
            }
        });
        priorityQueue2.offer(1);
        priorityQueue2.offer(2);
        priorityQueue2.offer(3);
        System.out.println(priorityQueue1);
        //使用lambda表达式创建基于大根堆的优先队列
        PriorityQueue<Integer> priorityQueue3 = new PriorityQueue<>((x, y) -> y-x);
        priorityQueue3.offer(1);
        priorityQueue3.offer(2);
        priorityQueue3.offer(3);
        System.out.println(priorityQueue1);
    }

5. PriorityQueue常用操作方法

方法名 功能介绍
boolean offer(E e) 插入元素e,插入成功返回true,如果e对象为空,抛出NullPointerException异常,时 间复杂度 O(logN),注意:空间不够时候会进行扩容
E peek() 获取优先级最高的元素,如果优先级队列为空,返回null
E poll() 移除优先级最高的元素并返回,如果优先级队列为空,返回null
int size() 获取有效元素的个数
void clear() 清空
boolean isEmpty() 检测优先级队列是否为空,空返回true
static void TestPriorityQueue2(){
        int[] arr = {4,1,9,2,8,0,7,3,6,5};
        // 一般在创建优先级队列对象时,如果知道元素个数,建议就直接将底层容量给好
        // 否则在插入时需要不够时要去扩容
        // 扩容机制:开辟更大的空间,拷贝元素,这样效率会比较低
        PriorityQueue<Integer> q = new PriorityQueue<>(arr.length);
        for (int e: arr) {
            q.offer(e);
        }
        System.out.println(q.size()); // 打印优先级队列中有效元素个数
        System.out.println(q.peek()); // 获取优先级最高的元素
        // 从优先级队列中删除两个元素之和,再次获取优先级最高的元素
        q.poll();
        q.poll();
        System.out.println(q.size()); // 打印优先级队列中有效元素个数
        System.out.println(q.peek()); // 获取优先级最高的元素
        q.offer(0);
        System.out.println(q.peek()); // 获取优先级最高的元素
        // 将优先级队列中的有效元素删除掉,检测其是否为空
        q.clear();
        if(q.isEmpty()){
            System.out.println("优先级队列已经为空!!!");
        }
        else{
            System.out.println("优先级队列不为空");
        }
    }

6. PriorityQueue的扩容方式

  • 如果容量小于64时,是按照oldCapacity的2倍方式扩容的
  • 如果容量大于等于64,是按照oldCapacity的1.5倍方式扩容的
  • 如果容量超过MAX_ARRAY_SIZE,按照Integer.MAX_VALUE大小来进行扩容

以下是JDK 1.8中,PriorityQueue的扩容方式:

    private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;
    private void grow(int minCapacity) {
        int oldCapacity = queue.length;
        // Double size if small; else grow by 50%
        int newCapacity = oldCapacity + ((oldCapacity < 64) ?
                (oldCapacity + 2) :
                (oldCapacity >> 1));
        // overflow-conscious code
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        queue = Arrays.copyOf(queue, newCapacity);
    }
    private static int hugeCapacity(int minCapacity) {
        if (minCapacity < 0) // overflow
            throw new OutOfMemoryError();
        return (minCapacity > MAX_ARRAY_SIZE) ?
                Integer.MAX_VALUE :
                MAX_ARRAY_SIZE;
    }

三. Top-k问题

TOP-K问题:即求数据集合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

思路1:

要处理这个问题, 我们能想到的最简单的方式就是排序, 但是如果数据量非常大的话, 就不推荐使用排序了, 因为我们只要拿到几个元素, 数据量很大时使用排序效率就比较低了;


思路2:

使用堆,如求的是前k个最大的元素,可以创建一个基于大根堆的优先级队列,把所有数据入堆,所有元素都入堆之后再出堆k个元素,这k个元素就是前k个最大的元素。


思路3:

上面的两种思路有一个缺陷就是, 如果数据量非常大的话, 效率就会很低下; Top-k问题标准解决思路如下:


用数据集合中前K个元素来建堆

如果找的是前k个最大的元素,去建小堆

如果找的是前k个最小的元素,去建大堆

用剩余的N-K个元素依次与堆顶元素来比较,

求的是前k个最大元素, 如果比所建小根堆的堆顶元素大, 则替换堆顶元素

求的是前k个最小元素, 如果比所建大根堆的堆顶元素大, 则替换堆顶元素


将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

时间复杂度分析

向上调整建堆的时间复杂度:73d8c9be8b2a4960a39693770de0ac9a.png

73d8c9be8b2a4960a39693770de0ac9a.png

[思路2时间复杂度分析]:

要将N个元素都放入到堆中, 每次入堆都需要向上调整(N*logN);

堆建好后, 将k个元素出堆, 每次出堆都需要向下调整(K*logN)

所以时间复杂度为O(NlogN+KlogN)

[思路3时间复杂度分析]:

建立大小为k的大/小根堆(K*logK)

遍历剩下的N-K个元素每个都和堆顶比较, 最坏的情况下, 每次都需要去调整((N-K)*logK)

所以时间复杂度为O( K*logK+(N-K)logK ) = O(NlogK)

通过下面的OJ去理解Top-k问题

在线OJ:面试题 17.14. 最小K个数

设计一个算法,找出数组中最小的k个数。以任意顺序返回这k个数均可。

示例

输入: arr = [1,3,5,7,2,4,6,8], k = 4
输出: [1,2,3,4]

提示

  • 0 <= len(arr) <= 100000
  • 0 <= k <= min(100000, len(arr))
class Solution {
    //方法三: 建立一个大小为k的大根堆
    public int[] smallestK(int[] arr, int k) {
        if(arr == null || k <= 0) {
            return new int[0];
        }
        PriorityQueue<Integer> maxHeap = new PriorityQueue<>(new Comparator<Integer>(){
            @Override
            public int compare(Integer o1, Integer o2) {
                return o2.compareTo(o1);
            }
        });
        for (int i = 0; i < k; i++) {
            maxHeap.offer(arr[i]);
        }
        for (int i = k; i < arr.length; i++) {
            if(arr[i] < maxHeap.peek()) {
                maxHeap.poll();
                maxHeap.offer(arr[i]);
            }
        }
        int[] tmp = new int[k];
        for (int i = 0; i < k; i++) {
            tmp[i] = maxHeap.poll();
        }
        return tmp;
    }
    //方法二: 将数据全部入堆
    /*public int[] smallestK(int[] arr, int k) {
        PriorityQueue<Integer> heap = new PriorityQueue<>();
        for (int i = 0; i < arr.length; i++) {
            heap.offer(arr[i]);
        }
        int[] tmp = new int[k];
        for (int i = 0; i < k; i++) {
            tmp[i] = heap.poll();
        }
        return tmp;
    }*/
    //方法一: 排序
    /*public int[] smallestK(int[] arr, int k) {
        Arrays.sort(arr);
        int[] tmp = new int[k];
        for(int i = 0; i < k; i++) {
            tmp[i] = arr[i];
        }
        return tmp;
    }*/
}
目录
相关文章
|
7月前
堆(优先级队列 PriorityQueue)
堆(优先级队列 PriorityQueue)
43 0
|
Java 调度
【PriorityQueue优先级队列及其应用】
【PriorityQueue优先级队列及其应用】
|
7月前
|
存储 Java
优先级队列(堆)
优先级队列(堆)
51 3
|
7月前
|
存储 安全
堆与优先级队列
堆与优先级队列
41 0
|
7月前
|
存储 算法 安全
堆 和 优先级队列(超详细讲解,就怕你学不会)
堆 和 优先级队列(超详细讲解,就怕你学不会)
|
存储 Java
PriorityQueue优先级队列
PriorityQueue优先级队列
|
7月前
|
存储
数据结构之优先级队列(堆)及top-k问题讲解(二)
数据结构之优先级队列(堆)及top-k问题讲解(二)
36 0
|
7月前
|
存储 安全 Java
数据结构之优先级队列(堆)及top-k问题讲解(一)
数据结构之优先级队列(堆)及top-k问题讲解(一)
77 0
堆(两种建堆方法)、堆排序和Top-K问题
堆(两种建堆方法)、堆排序和Top-K问题
|
存储 算法 Java
Java优先级队列-堆
Java优先级队列-堆
58 1