一篇解建堆,堆的实现,堆排序,TopK问题(C语言)《数据结构与算法》

简介: 一篇解建堆,堆的实现,堆排序,TopK问题(C语言)《数据结构与算法》

1. 堆的概念及结构 🚀


image.png


image.png


2. 堆的实现 🚀

在实现堆有两个比较重要的事情就是理解向上调整算法和向下调整算法。

堆的向上调整算法:是为了在插入数据的时候使原来的结构不变,还是一个堆。

堆的向下调整算法:1.是为了建堆。或者给你一个数组这个数组逻辑上可以看做一颗完全二叉树,但是还不是一个堆,我们要通过算法,把它构建成一个堆。2.删除堆数据的时候要用向下调整算法。


2.1. 堆向下调整算法 🚀

现在我们给出一个数组,逻辑上看做一颗完全二叉树。我们通过从根节点开始的向下调整算法可以把它调整成一个小堆。向下调整算法有一个 前提 :左右子树必须是一个堆,才能调整。


image.png


2.2. 堆的创建 🚀

下面我们给出一个数组,这个数组逻辑上可以看做一颗完全二叉树,但是还不是一个堆,现在我们通过向下调整算法,把它构建成一个堆。根节点左右子树不是堆,我们怎么调整呢?这里我们从倒数的第一个非叶子节点子树开始调整,一直调整到根节点的树,就可以调整成堆。


image.png


2.3. 建堆时间复杂度 🚀

因为堆是完全二叉树,而满二叉树也是完全二叉树,此处为了简化使用满二叉树来证明 ( 时间复杂度本来看的就是近似值,多几个节点不影响最终结果) 


image.png


2.4. 堆的插入 🚀

先插入一个10到数组的尾上,再进行向上调整算法,直到满足堆。(数据从下往上调,所以是向上调整算法)



image.png


2.5. 堆的删除 🚀

删除堆是删除堆顶的数据,将堆顶的数据根最后一个数据一换,然后删除数组最后一个数据,再进行向下调整算法。



image.png


3. 堆的应用 🚀


3.1 堆排序 🚀


堆排序即利用堆的思想来进行排序,总共分为两个步骤:

1. 建堆

升序:建大堆

降序:建小堆

2. 利用堆删除思想来进行排序(时间复杂度:NLogN 和 qsort一个等级哈)

建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。


image.png


image.png


3.2 TOP-K问题🚀

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大

比如:专业前 10 名、世界 500 强、富豪榜、游戏中前 100的活跃玩家等。

对于 Top-K 问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了 ( 可能数据都不能一下子全部加载到内存中) 。最佳的方式就是用堆来解决,基本思路如下:

1. 用数据集合中前 K 个元素来建堆

前 k 个最大的元素,则建小堆

前 k 个最小的元素,则建大堆

2. 用剩余的 N-K 个元素依次与堆顶元素来比较,不满足则替换堆顶元素  


注意

上面说的所有,如果不太理解,我们直接看下面的代码,作者是认为一个程序员代码可能给你的理解要比大白话要更直接哈。


4. 源代码 🚀

这里作者是建的小堆,如果要建大堆就改作者在代码里面声明的地方,就把三个小于改成大于就可以了哈。

源代码里面解决了:建堆(给一个数组建堆),堆的各项操作,堆排序,TopK问题。


PS:代码里面有详细的解释哈。


main函数里面test1里面是建堆的各项操作的测试及堆排序的测试。


                     test2里面是给一个数组然后建堆的测试哈。



4.1. Heap.h 🚀

#define _CRT_SECURE_NO_WARNINGS 1
#include<stdio.h>
#include<stdlib.h>
#include<assert.h>
#include<string.h>
#include<errno.h>
#include<stdbool.h>
#include<time.h>
typedef int HPDataType;
typedef struct Heap
{
  HPDataType* a;
  size_t size;
  size_t capacity;
}Heap;
//初始化
void HeapInit(Heap* php);
//打印
void HeapPrint(Heap* php);
// 堆的构建
void HeapCreate(Heap* php, HPDataType* a, int n);
// 堆的销毁
void HeapDestory(Heap* php);
// 堆的插入
void HeapPush(Heap* php, HPDataType x);
// 堆的删除
void HeapPop(Heap* php);
// 取堆顶的数据
HPDataType HeapTop(Heap* php);
// 堆的数据个数
size_t HeapSize(Heap* php);
// 堆的判空
bool HeapEmpty(Heap* php);
//堆排序  NLogN
void HeapSort(int* a, size_t size);
// TopK问题:找出N个数里面最大/最小的前K个问题。
// 比如:未央区排名前10的泡馍,西安交通大学王者荣耀排名前10的韩信,全国排名前10的李白。等等问题都是Topk问题,
// 需要注意:
// 找最大的前K个,建立K个数的小堆
// 找最小的前K个,建立K个数的大堆
void PrintTopK(int* a, int n, int k);
void TestTopk();

4.2. Heap.c 🚀

#define _CRT_SECURE_NO_WARNINGS 1
#include"Heap.h"
void AdjustDown(HPDataType* a, size_t sz, size_t root);
 堆的构建
//void HeapCreate(Heap* php, HPDataType* a, int n)
//{
//  assert(php);
//  HPDataType* new = (HPDataType*)malloc(sizeof(HPDataType) * n);
//  if (new == NULL)
//  {
//    perror("HeapCreate failed!\n");
//    exit(-1);
//  }
//  php->a = new;
//  php->capacity=n;
//  php->size = 0;
//  int curpos = php->size / 2 - 1;
//  while (curpos >= 0)
//  {
//    AdjustDown(php->a, 7,curpos);
//    curpos--;
//  }
//}
//给数组建堆
void HeapCreate(Heap* php, int arr[], int n)
{
  php->a = (int*)malloc(sizeof(HPDataType) * n);
  assert(php->a != NULL);
  php->capacity = n;
  php->size = n;
  //先把数据进堆
  for (int i = 0; i < n; ++i)
    php->a[i] = arr[i];
  //先找到最后一个分支的第一个非叶子节点  
  int curpos = php->size / 2 - 1;
  while (curpos >= 0)
  {
    AdjustDown(php->a, 7,curpos);
    curpos--;
  }
}
//初始化
void HeapInit(Heap* php)
{
  assert(php);
  php->a = NULL;
  php->capacity = 0;
  php->size = 0;
}
//打印
void HeapPrint(Heap* php)
{
  assert(php);
  assert(php->size > 0);
  for (size_t i = 0; i < php->size; i++)
  {
    printf("%d ", php->a[i]);
  }
  printf("\n");
}
// 堆的销毁
void HeapDestory(Heap* php)
{
  assert(php);
  php->a = NULL;
  php->capacity = 0;
  php->size = 0;
  free(php->a);
}
//交换
void Swap(HPDataType* p1, HPDataType* p2)
{
  HPDataType tmp = *p1;
  *p1 = *p2;
  *p2 = tmp;
}
//小堆为例  大堆换符合就可以了
//向上调整算法
void AdjustUP(HPDataType* a, size_t child)
{
  size_t parent = (child - 1) / 2;
  while (child>0)
  {
    if (a[child] < a[parent])
    {
      Swap(&a[child], &a[parent]);
    }
    else
    {
      break;
    }
    child = parent;
    parent= (child - 1) / 2;
  }
}
//向下调整算法
void AdjustDown(HPDataType* a, size_t sz, size_t root)
{
  //先找左右小的孩子
  //再和root的比  比root小就交换
  //root等于那个要交换的孩子 孩子再选  然后迭代
  //改为这个可能更好看一点
  //size_t parent = root;
  //这里默认左孩子
  //size_t child = parent * 2 + 1;
  //这里默认左孩子
  size_t child = root * 2 + 1;
  //sz的作用就是确保左右还在在数组内
  while (child<sz)
  {
    //小心右孩子不存在
    //找左右孩子小的
    //还有注意要把比较左右孩子放进循环,因为每次都要比较
    if (child+1<sz && a[child + 1] < a[child])
    {
      child = child + 1;
    }
    if (a[child] < a[root])
    {
      Swap(&a[child], &a[root]);
      root = child;
      child = root * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
// 堆的插入
void HeapPush(Heap* php, HPDataType x)
{
  assert(php);
  if (php->capacity == php->size)
  {
    size_t newcapacity = php->capacity == 0 ? 4 : php->capacity*2;
    HPDataType* new = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newcapacity);
    if (new == NULL)
    {
      printf("%s", strerror(errno));
      exit(-1);
    }
    php->a = new;
    php->capacity = newcapacity;
  }
  php->a[php->size] = x;
  php->size++;
  //上面是插入数据   
  //下面是 向上调整算法 使插入数据后还是一个小堆
  AdjustUP(php->a,php->size-1);
}
// 堆的删除
void HeapPop(Heap* php)
{
  assert(php);
  assert(php->size > 0);
  Swap(&php->a[0], &php->a[php->size - 1]);
  php->size--;
  //传参注意一下 
  AdjustDown(php->a,php->size,0);
}
// 取堆顶的数据
HPDataType HeapTop(Heap* php)
{
  assert(php);
  assert(php->size > 0);
  HPDataType top = php->a[0];
  return top;
}
// 堆的判空
bool HeapEmpty(Heap* php)
{
  assert(php);
  return php->size == 0;
}
// 堆的数据个数
size_t HeapSize(Heap* php)
{
  assert(php);
  return php->size;
}
//现在默认小堆,想变为大堆就把上面的向上向下调整算法改一下判断就可以了(3个)
//堆排序时间复杂度:  NLogN
//为什么是NLogN:因为每次插入数据都是一层只插入一个数据(假设是满二叉树,总
// 节点个数就是2^k-1:(2^(k-1)*2-1/(2-1))=N),k=Log2(k+1),即LogN)
// 又因为有N个数要排
//所以就是N*LogN
void HeapSort(int* a, size_t size)
{
  assert(a);
  Heap hp;
  HeapInit(&hp);
  size_t i = 0;
  for (i = 0; i < size; i++)
  {
    HeapPush(&hp, a[i]);
  }
  while (!HeapEmpty(&hp))
  {
    printf("%d ", HeapTop(&hp));
    HeapPop(&hp);
  }
  HeapDestory(&hp);
}
// TopK问题:找出N个数里面最大/最小的前K个问题。
// 比如:未央区排名前10的泡馍,西安交通大学王者荣耀排名前10的韩信,
// 全国排名前10的李白。等等问题都是Topk问题,
// 需要注意:
// 找最大的前K个,建立K个数的小堆
// 找最小的前K个,建立K个数的大堆
void PrintTopK(int* a, int n, int k)
{
  assert(a);
  assert(k < n);
  Heap hp;
  HeapInit(&hp);
  int i = 0;
  for (i = 0; i < n; i++)
  {
    HeapPush(&hp, a[i]);
  }
  while (k--)
  {
    printf("%d ", HeapTop(&hp));
    HeapPop(&hp);
  }
}
void TestTopk()
{
  //int arr[] = { 15,18,19,25,28,34,65,49,27,37 };
  //int sz = sizeof(arr) / sizeof(arr[0]);
  //int k = 5;
  //PrintTopK(arr, sz, k);
  int n = 10000;
  int* a = (int*)malloc(sizeof(int) * n);
  srand(time(0));
  for (size_t i = 0; i < n; ++i)
  {
    a[i] = rand() % 1000000;
  }
  a[5] = 1000000 + 1;
  a[1231] = 1000000 + 2;
  a[531] = 1000000 + 3;
  a[5121] = 1000000 + 4;
  a[115] = 1000000 + 5;
  a[2335] = 1000000 + 6;
  a[9999] = 1000000 + 7;
  a[76] = 1000000 + 8;
  a[423] = 1000000 + 9;
  a[3144] = 1000000 + 10;
  PrintTopK(a, n, 10);
}


4.3. test.c 🚀


#define _CRT_SECURE_NO_WARNINGS 1
#include"Heap.h"
void test1()
{
  //Heap hp;
  //HeapInit(&hp);
  HeapCreate(&hp, arr, 10);
  //HeapPush(&hp, 1);
  //HeapPrint(&hp);
  //HeapPush(&hp, 5);
  //HeapPrint(&hp);
  //HeapPush(&hp, 0);
  //HeapPrint(&hp);
  //HeapPush(&hp, 8);
  //HeapPrint(&hp);
  //HeapPush(&hp, 3);
  //HeapPrint(&hp);
  //HeapPush(&hp, 9);
  //HeapPrint(&hp);
  //HeapPush(&hp, 17);
  //HeapPrint(&hp);
  //HeapPush(&hp, 13);
  //HeapPush(&hp, 15);
  //HeapPush(&hp, 20);
  //HeapPrint(&hp);
  //printf("size=%d \n", HeapSize(&hp));
  //while (!HeapEmpty(&hp))
  //{
  //  printf("%d ", HeapTop(&hp));
  //  HeapPop(&hp);
  //}
  //HeapDestory(&hp);
  /// //
  //升序
  int arr[] = { 15,18,19,25,28,34,65,49,27,37 };
  size_t sz = sizeof(arr) / sizeof(arr[0]);
  HeapSort(arr, sz);
  //
  TestTopk();
}
void test2()
{
  Heap hp;
  HeapInit(&hp);
  int arr[] = { 3,7,5,2,9,10,15 };
  HeapCreate(&hp, arr, 7);
  for (int i = 0; i < 7; i++)
  {
    printf("%d ", hp.a[i]);
  }
}
int main()
{
  test1();
  //test2();
  return 0;
}


最后的最后,创作不易,希望读者三连支持💖

赠人玫瑰,手有余香💖

相关文章
|
2月前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
47 1
|
2月前
|
存储 算法 搜索推荐
【趣学C语言和数据结构100例】91-95
本文涵盖多个经典算法问题的C语言实现,包括堆排序、归并排序、从长整型变量中提取偶数位数、工人信息排序及无向图是否为树的判断。通过这些问题,读者可以深入了解排序算法、数据处理方法和图论基础知识,提升编程能力和算法理解。
56 4
|
2月前
|
存储 机器学习/深度学习 搜索推荐
【趣学C语言和数据结构100例】86-90
本文介绍并用C语言实现了五种经典排序算法:直接插入排序、折半插入排序、冒泡排序、快速排序和简单选择排序。每种算法都有其特点和适用场景,如直接插入排序适合小规模或基本有序的数据,快速排序则适用于大规模数据集,具有较高的效率。通过学习这些算法,读者可以加深对数据结构和算法设计的理解,提升解决实际问题的能力。
45 4
|
2月前
|
存储 算法 数据处理
【趣学C语言和数据结构100例】81-85
本文介绍了五个经典算法问题及其C语言实现,涵盖图论与树结构的基础知识。包括使用BFS求解单源最短路径、统计有向图中入度或出度为0的点数、统计无向无权图各顶点的度、折半查找及二叉排序树的查找。这些算法不仅理论意义重大,且在实际应用中极为广泛,有助于提升编程能力和数据结构理解。
51 4
|
2月前
|
算法 数据可视化 数据建模
【趣学C语言和数据结构100例】76-80
本文介绍了五种图论算法的C语言实现,涵盖二叉树的层次遍历及广度优先搜索(BFS)和深度优先搜索(DFS)的邻接表与邻接矩阵实现。层次遍历使用队列按层访问二叉树节点;BFS利用队列从源节点逐层遍历图节点,适用于最短路径等问题;DFS通过递归或栈深入图的分支,适合拓扑排序等场景。这些算法是数据结构和算法学习的基础,对提升编程能力和解决实际问题至关重要。
54 4
|
2月前
|
存储 算法 vr&ar
【趣学C语言和数据结构100例】71-75
本文介绍了五个C语言数据结构问题及其实现,涵盖链表与二叉树操作,包括按奇偶分解链表、交换二叉树左右子树、查找节点的双亲节点、计算二叉树深度及求最大关键值。通过递归和遍历等方法,解决了理论与实际应用中的常见问题,有助于提升编程能力和数据结构理解。
45 4
|
1月前
|
存储 算法 程序员
C 语言递归算法:以简洁代码驾驭复杂逻辑
C语言递归算法简介:通过简洁的代码实现复杂的逻辑处理,递归函数自我调用解决分层问题,高效而优雅。适用于树形结构遍历、数学计算等领域。
|
2月前
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
65 5
|
2月前
|
存储 缓存 算法
C语言在实现高效算法方面的特点与优势,包括高效性、灵活性、可移植性和底层访问能力
本文探讨了C语言在实现高效算法方面的特点与优势,包括高效性、灵活性、可移植性和底层访问能力。文章还分析了数据结构的选择与优化、算法设计的优化策略、内存管理和代码优化技巧,并通过实际案例展示了C语言在排序和图遍历算法中的高效实现。
46 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
50 1