堆排序和TopK问题(C语言实现)

简介: 堆排序和TopK问题(C语言实现)

前面的文章讲了堆的结构和基础接口实现,不熟的友友们可以去看看堆(C语言实现),点击跳转

1.堆排序

堆排序即利用堆的思想来进行排序

  • 升序:建大堆
  • 降序:建小堆

1.1向上调整和向下调整建堆对比

上一篇文章我们讲了建堆的接口,咱么用的是向下调整建堆,那为什么不用向上调整建堆呢?下面我们就来对比一下那种方法更优

向上调整建堆时间复杂度图解:

39c12b3b6e40de774adfd83dfeb78011.png

向下调整建堆时间复杂度图解:


d18e4317d20573ee6f8d0ab6a0d1564c.png由图解我们得到结论

向上调整建堆的时间复杂度为:O(N*log2(N));向下调整建堆的时间复杂度为:O(N)

1.2堆排序实现

1.2.1升序

升序,建大堆

首先交换堆的首尾数据,把最大的数放在尾部,再从根节点开始向下调整size-1个数据(递减:从size-1开始每放一个数据就 -1,也就是不对交换到尾部的元素进行调整)

//交换函数
void Swap(int* p1, int* p2)
{
  int tmp = *p1;
  *p1 = *p2;
  *p2 = tmp;
}
//向下调整(建大堆)
void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;//假定左孩子
  while (child < n)
  {
    //大堆:保证child指向大的那个孩子
    if (a[child + 1] > a[child] && child + 1 < n)
    {
      child++;
    }
    //大堆:孩子大于父亲就交换,并继续向下比较调整,反之则调整结束
    if (a[child] > a[parent])
    {
      Swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
//堆排序
//升序:建大堆
void HeapSort(int* a, int n)
{
  //建堆算法
  //从最后一个元素的父节点开始依次向前可以遍历到每颗子树的父节点
  for (int i = (n - 1 - 1) / 2; i >= 0; --i)
  {
    AdjustDown(a, n, i);
  }
  int end = n - 1;
  while (end > 0)
  {
    //交换首尾数据
    Swap(&a[0], &a[end]);
    //从首元素开始向下调整
    AdjustDown(a, end, 0);
    --end;
  }
}

1.2.2降序

降序,建小堆

首先交换堆的首尾数据,把最小的数放在尾部,再从根节点开始向下调整size-1个数据(递减:从size-1开始每放一个数据就 -1,也就是不对交换到尾部的元素进行调整)

//交换函数
void Swap(int* p1, int* p2)
{
  int tmp = *p1;
  *p1 = *p2;
  *p2 = tmp;
}
//向下调整(建小堆)
void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;//假定左孩子
  while (child < n)
  {
    //小堆:保证child指向小的那个孩子
    if (a[child + 1] < a[child] && child + 1 < n)
    {
      child++;
    }
    //小堆:孩子小于父亲就交换,并继续向下比较调整,反之则调整结束
    if (a[child] < a[parent])
    {
      Swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
//堆排序
//降序:建小堆
void HeapSort(int* a, int n)
{
  //建堆算法
  //从最后一个元素的父节点开始依次向前可以遍历到每颗子树的父节点
  for (int i = (n - 1 - 1) / 2; i >= 0; --i)
  {
    AdjustDown(a, n, i);
  }
  int end = n - 1;
  while (end > 0)
  {
    //交换首尾数据
    Swap(&a[0], &a[end]);
    //从首元素开始向下调整
    AdjustDown(a, end, 0);
    --end;
  }
}

2.Top-K问题

什么是Top-K问题?

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大

比如:专业前10名、世界500强、富豪榜、游戏中战力前100的玩家等

2.1解决思路

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:

1.用数据集合中前K个元素来建堆

  • 前k个最大的元素,则建小堆
  • 前k个最小的元素,则建大堆

2.用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素

  • 将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素

2.2代码实现

根据上面的思路,来举两个栗子

1.求有10000个数据的数组中最大的10个数

//Top-K问题
void Topk()
{
  int n = 10000;
  int* a = (int*)malloc(sizeof(int) * n);
  srand(time(0));
  //使数组中的数都在1000000以内
  for (size_t i = 0; i < n; ++i)
  {
    a[i] = rand() % 1000000;
  }
  //手动设置10个大于1000000的数
  a[12] = 1000000 + 1;
  a[1231] = 1000000 + 2;
  a[531] = 1000000 + 3;
  a[5121] = 1000000 + 4;
  a[115] = 1000000 + 5;
  a[2335] = 1000000 + 6;
  a[9999] = 1000000 + 7;
  a[76] = 1000000 + 8;
  a[423] = 1000000 + 9;
  a[3144] = 1000000 + 10;
  //将数组a中前k个数据读到数组minHeap中
  int k = 10;
  int* minHeap = (int*)malloc(sizeof(int) * k);
  if (minHeap == NULL)
  {
    perror("malloc fail");
    return;
  }
  for (int i = 0; i < k; ++i)
  {
    a[i] = minHeap[i];
  }
  //建一个k个大小的小堆minHeap
  for (int h = (k - 1 - 1) / 2; h >= 0; --h)
  {
    AdjustDown(minHeap, k, h);
  }
  //遍历数组中的剩余数与堆顶比较,大于则替换并向下调整
  for(int j = k;j < n; ++j)
  {
    if (a[j] > minHeap[0])
    {
      minHeap[0] = a[j];
      AdjustDown(minHeap, k, 0);
    }
  }
  //打印小堆数据即为数组a中最大的10个数
  for (int g = 0; g < k; ++g)
  {
    printf("%d ", minHeap[g]);
  }
  printf("\n");
}

2.从文件中读取数据求最大的前k的

//Top-K问题
void Topk()
{
  //写数据到文件中
  int n, k;
  printf("请输入在n个数中选取最大的k个数:>");
  scanf("%d%d", &n, &k);
  srand(time(0));
  FILE* fin = fopen("data.txt", "w");
  if (fin == NULL)
  {
    perror("fopen fail");
    return;
  }
  for (size_t i = 0; i < n; ++i)
  {
    int val = rand();
    fprintf(fin, "%d\n", val);
  }
  fclose(fin);
  //找topk
  FILE* fout = fopen("data.txt", "r");
  if (fout == NULL)
  {
    perror("fopen fail");
    return;
  }
  //开辟k个大小的数组
  int* minHeap = (int*)malloc(sizeof(int) * k);
  if (minHeap == NULL)
  {
    perror("malloc fail");
    return;
  }
  //将文件中的前k个数据读到数组中
  for (int i = 0; i < k; ++i)
  {
    fscanf(fout, "%d", &minHeap[i]);
  }
  //建一个k个大小的小堆
  for (int i = (k - 1 - 1) / 2; i >= 0; --i)
  {
    AdjustDown(minHeap, k, i);
  }
  int val = 0;
  while (fscanf(fout, "%d", &val) != EOF)
  {
    if (val > minHeap[0])
    {
      minHeap[0] = val;
      AdjustDown(minHeap, k, 0);
    }
  }
  for (int i = 0; i < k; ++i)
  {
    printf("%d ", minHeap[i]);
  }
  printf("\n");
  fclose(fout);
}

运行结果:

43ab825c48a80ddf3f7610c075dd5e6a.png

TopK问题图解(最大的前k个数举例):

20917ef5fec9848243fe7b0c9ce07938.png

堆排序和TopK问题到这里就介绍结束了,期待大佬们的三连!你们的支持是我最大的动力!

文章有写的不足或是错误的地方,欢迎评论或私信指出,我会在第一时间改正。

目录
相关文章
|
7月前
|
算法 C语言 索引
看了就会的堆排序(C语言)
看了就会的堆排序(C语言)
|
算法 C语言
【C语言】堆排序
【C语言】堆排序
73 0
|
存储 算法 C语言
二叉树的概念和性质/向上调整、向下调整算法/堆的插入和删除/堆排序/Top-K问题【上】【数据结构/二叉树/初阶/C语言实现】
二叉树的概念和性质/向上调整、向下调整算法/堆的插入和删除/堆排序/Top-K问题【上】【数据结构/二叉树/初阶/C语言实现】
79 0
|
7月前
|
搜索推荐 C语言
排序算法-选择/堆排序(C语言)
排序算法-选择/堆排序(C语言)
42 0
|
7月前
|
搜索推荐 C语言
数据结构排序——选择排序与堆排序(c语言实现)
数据结构排序——选择排序与堆排序(c语言实现)
48 0
|
C语言
【数据结构】—堆排序以及TOP-K问题究极详解(含C语言实现)
【数据结构】—堆排序以及TOP-K问题究极详解(含C语言实现)
|
存储 搜索推荐 测试技术
数据结构__<八大排序> __插入排序 |希尔排序 |选择排序 |堆排序 |快速排序 |归并排序(C语言实现)
数据结构__<八大排序> __插入排序 |希尔排序 |选择排序 |堆排序 |快速排序 |归并排序(C语言实现)
279 0
|
移动开发 人工智能 C语言
堆排序-C语言实现
堆排序        堆排序是利用堆的性质进行的一种选择排序。下面先讨论一下堆。 1.堆   堆实际上是一棵完全二叉树,其任何一非叶节点满足性质:   Key[i]=key[2i+2]   即任何一非叶节点的关键字不大于或者不小于其左右孩子节点的关键字。
856 0
|
21天前
|
存储 C语言 开发者
【C语言】字符串操作函数详解
这些字符串操作函数在C语言中提供了强大的功能,帮助开发者有效地处理字符串数据。通过对每个函数的详细讲解、示例代码和表格说明,可以更好地理解如何使用这些函数进行各种字符串操作。如果在实际编程中遇到特定的字符串处理需求,可以参考这些函数和示例,灵活运用。
42 10
|
21天前
|
存储 程序员 C语言
【C语言】文件操作函数详解
C语言提供了一组标准库函数来处理文件操作,这些函数定义在 `<stdio.h>` 头文件中。文件操作包括文件的打开、读写、关闭以及文件属性的查询等。以下是常用文件操作函数的详细讲解,包括函数原型、参数说明、返回值说明、示例代码和表格汇总。
43 9