一. 堆
1. 堆的概念
如果有一个关键码的集合K = {k0,k1, k2,…,kn-1},把它的所有元素按完全二叉树的顺序存储方式存储 在一 个一维数组中,并满足:Ki <= K2i+1 且 Ki<= K2i+2 (Ki >= K2i+1 且 Ki >= K2i+2) i = 0,1,2…,则称为 小堆(或大堆)。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。
堆的性质:
- 堆中某个节点的值总是不大于或不小于其父节点的值;
- 堆总是一棵完全二叉树。
2. 堆的存储方式
从堆的概念可知,堆是一棵完全二叉树,因此可以层序的规则采用顺序的方式来高效存储,
注意:对于非完全二叉树,则不适合使用顺序方式进行存储,因为为了能够还原二叉树,空间中必须要存储空节点,就会导致空间利用率比较低。
假设i为节点在数组中的下标,则有:
如果i为0,则i表示的节点为根节点,否则i节点的双亲节点为 (i - 1)/2
如果2 * i + 1 小于节点个数,则节点i的左孩子下标为2 * i + 1,否则没有左孩子
如果2 * i + 2 小于节点个数,则节点i的右孩子下标为2 * i + 2,否则没有右孩子
3. 堆的创建
【向下调整】
首先我们需要知道堆的特点, 堆的堆顶的元素大于 (或小于) 子堆的元素大小,堆的本质就是一棵完全二叉树,堆采用顺序存储的方式来实现, 所以根据这些特点可以总结出堆的创建过程。
找到数组中最后一个子树所在位置,注意这里的子树不包含单独的叶子结点。
对该子树进行向下调整,如果要创建的是大根堆,找到该树两个子结点值较大的结点与根结点进行比较,如果这个子结点比根结点要大,则交换两结点的值,然后再对被调整的子结点作相同的调整(向下调整),直到被调整的子树满足大堆条件或下标超出数组的范围; 同样的思路, 如果建立的是小根堆 , 找到该树两个子结点值较小的结点与根结点进行比较,如果这个子结点比根结点要小,则交换两结点的值 , 然后再对被调整的子结点作相同的调整(向下调整),直到被调整的子树满足大堆条件或下标超出数组的范围
从最后一棵子树(该树不为叶子,最右边一棵高度为2的子树)开始调整,调整完后再向前找前一棵子树 , 以此类推, 直至调整完最后一棵(以堆顶结点所代表的树)结束,按此顺序对所有树进行向下调整,此时(大/小)堆就创建好了。
设最后一棵子树根结点所对应数组下标为parent,其左子树根结点为child,堆大小为len,根据二叉树的性质,下标会满足child = 2 ∗ parent + 1 ; parent = (child − 1 ) / 2 ;
最后一个结点下标为len−1,其父结点下标为(len−2) / 2 ; 也就是说 , 最后一棵子树根结点的下标为(len−2) / 2
对于向下调整中,以创建大根堆为例,如果一棵子树右结点存在且大于左结点的值,则child++保证child指向的是左右结点中较大的那一个
下面给出的是堆的基本成员属性,
public class MyHeap { public int[] elem; public int usedSize;//记录有效元素个数 public static final int DEFAULT_SIZE = 10;//默认容量 public MyHeap() { elem = new int[DEFAULT_SIZE]; } //初始化数组 public void initElem(int[] array) { for (int i = 0; i < array.length; i++) { this.elem[i] = array[i]; usedSize++; } } }
代码实现创建大根堆,
//调整数组元素,创建大根堆 public void createHeap() { //从最后一个双亲节点开始向下调整 for (int parent = (this.usedSize-1-1)/2; parent >= 0; parent--) { //向下调整 shiftDown(parent, this.usedSize); } } /** * 向下调整 * @param parent 每棵树的根节点位置 * @param len 用来判断每棵子树调整的结束时机, 位置不能大于len */ public void shiftDown(int parent, int len) { //计算左孩子位置 int child = parent*2+1; //要判断左孩子是否存在 while(child < len) { //确定右孩子是否存在,确定最大值 if (child + 1 < len && elem[child] < elem[child+1]) { child++; } //走到这里child指向的一定是左右孩子中较大的 if(elem[parent] < elem[child]) { int tmp = elem[parent]; elem[parent] = elem[child]; elem[child] = tmp; parent = child; child = 2*parent+1; }else { break; } } }
【建堆的时间复杂度】
建堆的过程是自下而上的,堆的本质就是一棵完全二叉树,不妨设该二叉树的高度为h,堆元素个数为n,建堆时需要对所有高度大于1的子树进行调整,最坏情况下该堆是一个满堆,设该堆所处层次为x(从1开始),则第x层次的子树需要调整h-x次,有2 ^ (h-1)个结点,由于只调整高度大于1的子树,因此x的范围为[1,h−1]
调整的次数为T(n):
我们发现T(n)为等比数列和减去h再加上1,等比数列求和公式为Sn=a1(1−qn)/(1−q)
T(n)=2∗(1−2h−1)/(−1)−h+1
T(n)=2 ^ h−h−1
所以,建堆的时间复杂度为O(N)。
4. 元素入堆
按照如下步骤完成元素入堆:
- 先将元素放入到放入堆尾(注意:空间不够时需要扩容)
- 将最后新插入的节点向上调整,直到满足堆的性质
下面是对向上调整的说明:
在数组最后一个位置放入一个元素后,以大根堆为例, 这个元素所在的子树就可能不满足大根堆的条件了, 所以需要对该结点进行向上调整,让这棵子树再次满足大根堆, 如果做出了调整, 就需要一直先向上调整, 直至满足条件 ; 所谓向上调整就是比较 调整结点与父亲结点 值的大小,如果该结点值比较大,则与父亲结点交换值,否则不需调整,该堆已经满足大根堆条件,因为交换后不知道上面的子树是否为大根堆,所以需要对交换路径上所有的结点进行相同的向上调整,直到调整完堆顶,过程中出现父亲结点比较大则结束调整; 同样的如果是小根堆,思路是一样的, 只需要把把 调整结点与父亲结点 的比较方式改变一下即可.
下面的实现代码以大根堆为例:
public void offer(int val) { //判断空间是不是满了 if(isFull()) { elem = Arrays.copyOf(elem, 2*elem.length); } elem[usedSize] = val; usedSize++; //向上调整 shiftUp(usedSize-1); } public boolean isFull() { return usedSize == elem.length; } public void shiftUp(int child) { int parent = (child-1)/2; while(child > 0) { if (elem[parent] < elem[child]) { int tmp = elem[parent]; elem[parent] = elem[child]; elem[child] = tmp; child = parent; parent = (child-1)/2; }else{ break; } } }
5. 元素出堆
注意:出堆的元素一定是堆顶元素
按照如下步骤完成元素出堆:
- 将堆顶元素与堆尾元素交换,保存并删除堆尾元素。
- 将堆中有效数据个数减少一个
- 对堆顶元素向下调整,因为堆顶交换元素的路径可能会破坏大根堆(或小根堆)结构。
- 返回之前保存的堆尾元素,返回的是删除元素的值。
下面的实现代码以大根堆为例:
//堆的删除 public int pop() { if(isEmpty()) { throw new EmptyHeapException("当前堆为空"); } int tmp = elem[0]; elem[0] = elem[usedSize-1]; elem[usedSize-1] = tmp; usedSize--; shiftDown(0, usedSize); return tmp; }
6. 获取堆中元素
//判断堆是否为空 public boolean isEmpty() { return usedSize == 0; } //获取堆中元素 public int peek() { if(isEmpty()) { throw new EmptyHeapException(); } return elem[0]; } //清空 public void clear() { usedSize = 0; } public int size() { return usedSize; }
二. 优先级堆列(PriorityQueue)
1. 优先级队列
在优先级队列中,元素被赋予优先级。当访问元素时,具有最高优先级的元素最先删除。优先队列具有最高级先出 (first in, largest out)的行为特征,通常采用堆数据结构来实现; 比如说一个优先队列是由小根堆实现的,则该队列优先最小的元素出队,反之,优先队列由大根堆实现,则该队列优先最大的元素出队。
2. PriorityQueue的特性
关于PriorityQueue的使用要注意:
使用时必须导入PriorityQueue所在的包,即: import java.util.PriorityQueue;
PriorityQueue中放置的元素必须要能够比较大小,不能插入无法比较大小的对象,否则会抛出ClassCastException异常
不能插入null对象,否则会抛出NullPointerException
没有容量限制,可以插入任意多个元素,其内部可以自动扩容
插入和删除元素的时间复杂度为O(logN)
PriorityQueue底层使用了堆数据结构
PriorityQueue默认情况下是小堆 , 如果想要改变使用大根堆实现,则需要传入对象的比较器,或比较器内部类或lambda表达式所实现的比较器。
3. 集合框架中PriorityQueue的比较方式
集合框架中的PriorityQueue底层使用堆结构,因此其内部的元素必须要能够比较大小,PriorityQueue采用了:
Comparble和Comparator两种方式。
Comparble是默认的内部比较方式,如果用户插入自定义类型对象时,该类对象必须要实现Comparble接口,并覆写compareTo方法
用户也可以选择使用比较器对象,如果用户插入自定义类型对象时,必须要提供一个比较器类,让该类实现Comparator接口并覆写compare方法。
// JDK中PriorityQueue的实现: public class PriorityQueue<E> extends AbstractQueue<E> implements java.io.Serializable { // ... // 默认容量 private static final int DEFAULT_INITIAL_CAPACITY = 11; // 内部定义的比较器对象,用来接收用户实例化PriorityQueue对象时提供的比较器对象 private final Comparator<? super E> comparator; // 用户如果没有提供比较器对象,使用默认的内部比较,将comparator置为null public PriorityQueue() { this(DEFAULT_INITIAL_CAPACITY, null); } // 如果用户提供了比较器,采用用户提供的比较器进行比较 public PriorityQueue(int initialCapacity, Comparator<? super E> comparator) { // Note: This restriction of at least one is not actually needed, // but continues for 1.5 compatibility if (initialCapacity < 1) throw new IllegalArgumentException(); this.queue = new Object[initialCapacity]; this.comparator = comparator; } // ... // 向上调整: // 如果用户没有提供比较器对象,采用Comparable进行比较 // 否则使用用户提供的比较器对象进行比较 private void siftUp(int k, E x) { if (comparator != null) siftUpUsingComparator(k, x); else siftUpComparable(k, x); } // 使用Comparable @SuppressWarnings("unchecked") private void siftUpComparable(int k, E x) { Comparable<? super E> key = (Comparable<? super E>) x; while (k > 0) { int parent = (k - 1) >>> 1; Object e = queue[parent]; if (key.compareTo((E) e) >= 0) break; queue[k] = e; k = parent; } queue[k] = key; } // 使用用户提供的比较器对象进行比较 @SuppressWarnings("unchecked") private void siftUpUsingComparator(int k, E x) { while (k > 0) { int parent = (k - 1) >>> 1; Object e = queue[parent]; if (comparator.compare(x, (E) e) >= 0) break; queue[k] = e; k = parent; } queue[k] = x; } }
下面的代码是定义一个的自定义类型, 要将自定义类型入堆, 自定义类型必须实现Comparble接口; 将第一个元素入堆时不涉及比较, 当第二个元素入堆就会涉及比较了;
class Person implements Comparable<Person>{ int age; String name; public Person(int age, String name) { this.age = age; this.name = name; } @Override public int compareTo(Person o) { return this.age - o.age; } @Override public String toString() { return "Person{" + "age=" + age + ", name='" + name + '\'' + '}'; } } public class Test { public static void main(String[] args) { PriorityQueue<Person> priorityQueue = new PriorityQueue<>(); priorityQueue.offer(new Person(18,"张三")); priorityQueue.offer(new Person(20,"李四")); } }
4. PriorityQueue常用构造方法
构造器 | 功能介绍 |
PriorityQueue() | 创建一个空的优先级队列,默认容量是11 |
PriorityQueue(int initialCapacity) | 创建一个初始容量为initialCapacity的优先级队列,注意: initialCapacity不能小于1,否则会抛IllegalArgumentException异 常 |
PriorityQueue(Collection< ? extends E > c) | 用一个集合来创建优先级队列 |
观察这三个构造方法的源码, 其实在底层是又调用了含有两个参数的构造方法public PriorityQueue(int initialCapacity**,** Comparator<? super E> comparator), 除了设置容量的参数外, 另一个参数是一个比较器, 在调用时设置为了null;
构造示例:
static void TestPriorityQueue(){ // 创建一个空的优先级队列,底层默认容量是11 PriorityQueue<Integer> q1 = new PriorityQueue<>(); // 创建一个空的优先级队列,底层的容量为initialCapacity PriorityQueue<Integer> q2 = new PriorityQueue<>(100); ArrayList<Integer> list = new ArrayList<>(); list.add(4); list.add(3); list.add(2); list.add(1); // 用ArrayList对象来构造一个优先级队列的对象 // q3中已经包含了三个元素 PriorityQueue<Integer> q3 = new PriorityQueue<>(list); System.out.println(q3.size()); System.out.println(q3.peek()); }
注意:默认情况下,PriorityQueue队列是小堆,如果需要大堆需要用户提供比较器
public static void main(String[] args) { PriorityQueue<Integer> priorityQueue1 = new PriorityQueue<>(new IntCmp()); priorityQueue1.offer(1); priorityQueue1.offer(2); priorityQueue1.offer(3); System.out.println(priorityQueue1); //使用隐藏内部类创建基于大根堆的优先队列 PriorityQueue<Integer> priorityQueue2 = new PriorityQueue<>(new Comparator<Integer>() { @Override public int compare(Integer o1, Integer o2) { return o2 - o1; } }); priorityQueue2.offer(1); priorityQueue2.offer(2); priorityQueue2.offer(3); System.out.println(priorityQueue1); //使用lambda表达式创建基于大根堆的优先队列 PriorityQueue<Integer> priorityQueue3 = new PriorityQueue<>((x, y) -> y-x); priorityQueue3.offer(1); priorityQueue3.offer(2); priorityQueue3.offer(3); System.out.println(priorityQueue1); }
5. PriorityQueue常用操作方法
方法名 | 功能介绍 |
boolean offer(E e) | 插入元素e,插入成功返回true,如果e对象为空,抛出NullPointerException异常,时 间复杂度 O(logN),注意:空间不够时候会进行扩容 |
E peek() | 获取优先级最高的元素,如果优先级队列为空,返回null |
E poll() | 移除优先级最高的元素并返回,如果优先级队列为空,返回null |
int size() | 获取有效元素的个数 |
void clear() | 清空 |
boolean isEmpty() | 检测优先级队列是否为空,空返回true |
static void TestPriorityQueue2(){ int[] arr = {4,1,9,2,8,0,7,3,6,5}; // 一般在创建优先级队列对象时,如果知道元素个数,建议就直接将底层容量给好 // 否则在插入时需要不够时要去扩容 // 扩容机制:开辟更大的空间,拷贝元素,这样效率会比较低 PriorityQueue<Integer> q = new PriorityQueue<>(arr.length); for (int e: arr) { q.offer(e); } System.out.println(q.size()); // 打印优先级队列中有效元素个数 System.out.println(q.peek()); // 获取优先级最高的元素 // 从优先级队列中删除两个元素之和,再次获取优先级最高的元素 q.poll(); q.poll(); System.out.println(q.size()); // 打印优先级队列中有效元素个数 System.out.println(q.peek()); // 获取优先级最高的元素 q.offer(0); System.out.println(q.peek()); // 获取优先级最高的元素 // 将优先级队列中的有效元素删除掉,检测其是否为空 q.clear(); if(q.isEmpty()){ System.out.println("优先级队列已经为空!!!"); } else{ System.out.println("优先级队列不为空"); } }
6. PriorityQueue的扩容方式
- 如果容量小于64时,是按照oldCapacity的2倍方式扩容的
- 如果容量大于等于64,是按照oldCapacity的1.5倍方式扩容的
- 如果容量超过MAX_ARRAY_SIZE,按照Integer.MAX_VALUE大小来进行扩容
以下是JDK 1.8中,PriorityQueue的扩容方式:
private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8; private void grow(int minCapacity) { int oldCapacity = queue.length; // Double size if small; else grow by 50% int newCapacity = oldCapacity + ((oldCapacity < 64) ? (oldCapacity + 2) : (oldCapacity >> 1)); // overflow-conscious code if (newCapacity - MAX_ARRAY_SIZE > 0) newCapacity = hugeCapacity(minCapacity); queue = Arrays.copyOf(queue, newCapacity); } private static int hugeCapacity(int minCapacity) { if (minCapacity < 0) // overflow throw new OutOfMemoryError(); return (minCapacity > MAX_ARRAY_SIZE) ? Integer.MAX_VALUE : MAX_ARRAY_SIZE; }
三. Top-k问题
TOP-K问题:即求数据集合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
思路1:
要处理这个问题, 我们能想到的最简单的方式就是排序, 但是如果数据量非常大的话, 就不推荐使用排序了, 因为我们只要拿到几个元素, 数据量很大时使用排序效率就比较低了;
思路2:
使用堆,如求的是前k个最大的元素,可以创建一个基于大根堆的优先级队列,把所有数据入堆,所有元素都入堆之后再出堆k个元素,这k个元素就是前k个最大的元素。
思路3:
上面的两种思路有一个缺陷就是, 如果数据量非常大的话, 效率就会很低下; Top-k问题标准解决思路如下:
用数据集合中前K个元素来建堆
如果找的是前k个最大的元素,去建小堆
如果找的是前k个最小的元素,去建大堆
用剩余的N-K个元素依次与堆顶元素来比较,
求的是前k个最大元素, 如果比所建小根堆的堆顶元素大, 则替换堆顶元素
求的是前k个最小元素, 如果比所建大根堆的堆顶元素大, 则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
时间复杂度分析
向上调整建堆的时间复杂度:
[思路2时间复杂度分析]:
要将N个元素都放入到堆中, 每次入堆都需要向上调整(N*logN);
堆建好后, 将k个元素出堆, 每次出堆都需要向下调整(K*logN)
所以时间复杂度为O(NlogN+KlogN)
[思路3时间复杂度分析]:
建立大小为k的大/小根堆(K*logK)
遍历剩下的N-K个元素每个都和堆顶比较, 最坏的情况下, 每次都需要去调整((N-K)*logK)
所以时间复杂度为O( K*logK+(N-K)logK ) = O(NlogK)
通过下面的OJ去理解Top-k问题
在线OJ:面试题 17.14. 最小K个数
设计一个算法,找出数组中最小的k个数。以任意顺序返回这k个数均可。
示例:
输入: arr = [1,3,5,7,2,4,6,8], k = 4 输出: [1,2,3,4]
提示:
- 0 <= len(arr) <= 100000
- 0 <= k <= min(100000, len(arr))
class Solution { //方法三: 建立一个大小为k的大根堆 public int[] smallestK(int[] arr, int k) { if(arr == null || k <= 0) { return new int[0]; } PriorityQueue<Integer> maxHeap = new PriorityQueue<>(new Comparator<Integer>(){ @Override public int compare(Integer o1, Integer o2) { return o2.compareTo(o1); } }); for (int i = 0; i < k; i++) { maxHeap.offer(arr[i]); } for (int i = k; i < arr.length; i++) { if(arr[i] < maxHeap.peek()) { maxHeap.poll(); maxHeap.offer(arr[i]); } } int[] tmp = new int[k]; for (int i = 0; i < k; i++) { tmp[i] = maxHeap.poll(); } return tmp; } //方法二: 将数据全部入堆 /*public int[] smallestK(int[] arr, int k) { PriorityQueue<Integer> heap = new PriorityQueue<>(); for (int i = 0; i < arr.length; i++) { heap.offer(arr[i]); } int[] tmp = new int[k]; for (int i = 0; i < k; i++) { tmp[i] = heap.poll(); } return tmp; }*/ //方法一: 排序 /*public int[] smallestK(int[] arr, int k) { Arrays.sort(arr); int[] tmp = new int[k]; for(int i = 0; i < k; i++) { tmp[i] = arr[i]; } return tmp; }*/ }