首先,堆是一种数据结构,一种特殊的完全二叉树,采用顺序结构存储,在学习堆之前,我们先学习一下二叉树的顺序结构,再开始学习本篇文章的重点 --- 堆。
1.二叉树的顺序结构
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。
完全二叉树的顺序存储:
非完全二叉树的顺序存储:
可以发现非完全二叉树可能会存在大量的空间浪费。
2.堆的概念及结构
如果有一个关键码的集合K= { k0,k1, k2,...,k(n-1) },把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中,并满足: Ki <= K(2i+1) 且 Ki <= K(2i+2) (Ki >= K(2i+1) 且 Ki >= K(2i+2) ) i =0,1,2...,则称为小堆(或大堆)。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。
概括来说:
堆有大根堆小根堆之分,简称大堆小堆:
大堆:堆内所有父节点都大于子节点。根节点最大。
小堆:堆内所有父节点都小于子节点。根节点最小。
堆的性质:
堆中某个节点的值总是不大于或不小于其父节点的值;
堆总是一棵完全二叉树。
示例:
例题:
1.下列关键字序列为堆的是:()
A 100,60,70,50,32,65
B 60,70,65,50,32,100
C 65,100,70,32,50,60
D 70,65,100,32,50,60
E 32,50,100,70,65,60
F 50,100,70,65,60,32
答案A
3.堆的实现
3.1 向上调整算法与向下调整算法
建堆有两种算法,一种是向上调整算法,一种是向下调整算法。现在我们给出一个数组,逻辑上看做一颗完全二叉树。
向上调整算法:
前提:前面元素已经构成堆,才能调整。
比如在下面小堆后面插入5
会将插入的数据向上调整到合适的位置
代码实现:
//交换 void Swap(HeapDataType* p1, HeapDataType* p2) { HeapDataType tmp = *p1; *p1 = *p2; *p2 = tmp; } //小堆 void AdjustUp(HeapDataType* arr, int child) { int parent = (child - 1) / 2; while (child > 0) { if (arr[child] < arr[parent]) { //交换 Swap(&arr[child],&arr[parent]); child = parent; parent = (child - 1) / 2; } else { break; } } }
建立大堆和小堆的向上调整算法判断条件不同,略有差异。
向下调整算法:
我们通过从根节点开始的向下调整算法,可以把它调整成一个小堆。
向下调整算法有一个前提:左右子树必须是一个堆,才能调整。
int array[] = {27,15,19,18,28,34,65,49,25,37};
以27为根的左右子树,都满足小堆的性质,只有根节点不满足,因此只需将根节点往下调整到合适的位置即可形成堆
代码实现
//向下调整 //完全二叉树没有左孩子,肯定没有右孩子 n是数组元素个数 void AdjustDown(HeapDataType* arr, int n, int parent) { int child = parent * 2 + 1; while (child < n) { //找出左右孩子中最小的 if (child + 1 < n && arr[child] > arr[child + 1]) { child++; } if (arr[child] < arr[parent]) { //交换 Swap(&arr[child], &arr[parent]); parent = child; child = parent * 2 + 1; } else { break; } } }
3.2 堆的创建
这里用向下调整算法创建,因为向上调整法时间复杂度较大,后面会讲
下面我们给出一个数组,这个数组逻辑上可以看做一颗完全二叉树,但是还不是一个堆,现在我们通过算法,把它构建成一个堆。根节点左右子树不是堆,我们怎么调整呢?这里我们从倒数的第一个非叶子节点的子树开始调整,一直调整到根节点的树,就可以调整成堆。
int a[] = {1,5,3,8,7,6};
步骤如下:
3.3 建堆的空间复杂度
因为堆是完全二叉树,而满二叉树也是完全二叉树,此处为了简化使用满二叉树来证明(时间复杂度本来看的就是近似值,多几个节点不影响最终结果):
向下调整算法建堆:
所以向下调整算法建堆的时间复杂度为O(N)。
向上调整算法建堆:
向上调整算法需要从第2个节点开始向上调整,调整好之后,第3个节点向上调整,依次向后,直到调完。
所以向上调整算法建堆的时间复杂度为O(N*(logN))。
所以这里推荐使用向下调整算法。
3.4 堆的插入
先插入一个10到数组的尾上,再进行向上调整算法,直到满足堆。
3.5 堆的删除
删除堆是删除堆顶的数据,将堆顶的数据根最后一个数据一换,然后删除数组最后一个数据,再进行向下调整算法。
3.6 堆的代码的实现
typedef int HPDataType; typedef struct Heap { HPDataType* a; int size; int capacity; }Heap; // 堆的构建 void HeapCreate(Heap* hp, HPDataType* a, int n); // 堆的销毁 void HeapDestory(Heap* hp); // 堆的插入 void HeapPush(Heap* hp, HPDataType x); // 堆的删除 void HeapPop(Heap* hp); // 取堆顶的数据 HPDataType HeapTop(Heap* hp); // 堆的数据个数 int HeapSize(Heap* hp); // 堆的判空 int HeapEmpty(Heap* hp);
具体实现:
//交换元素 void Swap(HPDataType* p1, HPDataType* p2) { HPDataType t = *p1; *p1 = *p2; *p2 = t; } //向下调整 小堆 void AdjustDown(HPDataType* arr, int n, int parent) { int child = parent * 2 + 1; while (child < n) { //找最小子树 if (child + 1 < n && arr[child] > arr[child + 1]) { child++; } if (arr[child] < arr[parent]) { Swap(&arr[child], &arr[parent]); parent = child; child = parent * 2 + 1; } else { return; } } } // 堆的构建 void HeapCreate(Heap* hp, HPDataType* a, int n) { assert(hp); hp->a = (HPDataType*)malloc(sizeof(HPDataType) * n); if (hp->a == NULL) { return; } hp->capacity = n; hp->size = n; for (int i = 0; i < n; i++) { hp->a[i] = a[i]; } for (int i = (n-1-1)/2; i >= 0; i--) { AdjustDown(hp->a, n, i); } } // 堆的销毁 void HeapDestory(Heap* hp) { assert(hp); free(hp->a); hp->a = NULL; hp->size = hp->capacity = 0; } //向上调整 小堆 void AdjustUp(HPDataType* arr, int child) { int parent = (child - 1) / 2; while (child > 0) { if (arr[child] < arr[parent]) { Swap(&arr[child], &arr[parent]); child = parent; parent = (child - 1) / 2; } else { return; } } } // 堆的插入 void HeapPush(Heap* hp, HPDataType x) { assert(hp); if (hp->size == hp->capacity) { int newcapacity = hp->a == NULL ? 4 : hp->capacity * 2; HPDataType* ptr = (HPDataType*)realloc(hp->a, sizeof(HPDataType) * newcapacity); if (ptr == NULL) { perror("realloc fail"); return; } hp->a = ptr; hp->capacity = newcapacity; } hp->a[hp->size] = x; hp->size++; //向上调整 AdjustUp(hp->a, hp->size - 1); } // 堆的删除 void HeapPop(Heap* hp) { assert(hp); assert(!HeapEmpty(hp)); Swap(&hp->a[0], &hp->a[hp->size - 1]); hp->size--; //向下调整 AdjustDown(hp->a, hp->size, 0); } // 取堆顶的数据 HPDataType HeapTop(Heap* hp) { assert(hp); assert(!HeapEmpty(hp)); return hp->a[0]; } // 堆的数据个数 int HeapSize(Heap* hp) { assert(hp); return hp->size; } // 堆的判空 int HeapEmpty(Heap* hp) { assert(hp); return hp->size == 0; }
4.堆的应用
4.1 堆排序
堆排序即利用堆的思想来进行排序,总共分为两个步骤:
1.建堆
- 升序:建大堆
- 降序:建小堆
2.利用堆删除思想来进行排序。
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
示例:升序:
#include<stdio.h> //交换 void swap(int* p1, int* p2) { int t = *p1; *p1 = *p2; *p2 = t; } //向下调整 大堆 void Adjustdown(int* arr, int n, int parent) { int child = parent * 2 + 1; while (child < n) { if (child + 1 < n && arr[child] < arr[child + 1]) { child++; } if (arr[child] > arr[parent]) { swap(&arr[child], &arr[parent]); parent = child; child = parent * 2 + 1; } else { break; } } } void HeapSort(int* a, int n) { //建堆 升序建大堆 //向下调整 for (int i = (n - 1 - 1) / 2; i >= 0; i--) { Adjustdown(a, n, i); } //排序 int end = n - 1; while (end) { swap(&a[end], &a[0]); Adjustdown(a, end, 0); end--; } } int main() { int arr[] = { 10,50,40,20,30,60,70 }; int sz = sizeof(arr) / sizeof(int); HeapSort(arr, sz); for (int i = 0; i < sz; i++) { printf("%d ", arr[i]); } return 0; }
4.2 TOP-K问题
TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1.用数据集合中前K个元素来建堆
前k个最大的元素,则建小堆
前k个最小的元素,则建大堆
2.用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素,再向下调整。
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
示例代码:这里需要生成文件后打开文件把几个数改成较大的值,模拟数据中的最大值,再注释掉CreateNDate()函数,模拟TOP-K问题,因为再写文件会把原来的数据覆盖掉。
#include<stdio.h> #include<time.h> void swap(int* p1, int* p2) { int t = *p1; *p1 = *p2; *p2 = t; } //小堆 void Adjustdown(int* arr, int n, int parent) { int child = parent * 2 + 1; while (child < n) { if (child + 1 < n && arr[child] > arr[child + 1]) { child++; } if (arr[child] < arr[parent]) { swap(&arr[child], &arr[parent]); parent = child; child = parent * 2 + 1; } else { break; } } } void CreateNDate() { // 造数据 int n = 10000; srand((unsigned int)time(NULL)); FILE* file = fopen("data.txt", "w"); for (int i = 0; i < n; i++) { fprintf(file,"%d\n", rand() % 10000);//生成10000以内的随机数 } fclose(file); } void PrintTopK(int k)//最大的k个数 { CreateNDate();//造数据,选这些数据中的最大值 FILE* file = fopen("data.txt", "r"); //建立小堆 int* arr = (int*)malloc(sizeof(int) * k); for (int i = 0; i < k; i++) { fscanf(file, "%d", &arr[i]); } for (int i = (k-1-1)/2; i >=0 ; i--) { Adjustdown(arr, k, i); } int a = 0; while (fscanf(file, "%d", &a)!=EOF) { if (arr[0] < a) { swap(&arr[0], &a); } Adjustdown(arr, k, 0); } for (int i = 0; i < k; i++) { printf("%d ", arr[i]); } fclose(file); free(arr); } int main() { PrintTopK(5); return 0; }
本篇结束