【数据结构】—堆排序以及TOP-K问题究极详解(含C语言实现)

简介: 【数据结构】—堆排序以及TOP-K问题究极详解(含C语言实现)

☸️一、前置知识:两种调整方法

        向上调整方法  

       堆的向上调整方法将新插入的节点从下往上逐层比较,如果当前节点比其父节点大(或小,根据是大根堆还是小根堆),则交换这两个节点。一直向上比较,直到不需要交换为止。这样可以保证堆的性质不变。

  具体步骤如下:


       1.将新插入的节点插入到堆的最后一位。


       2.获取该节点的父节点的位置,比较该节点与其父节点的大小关系。


       .如果该节点比其父节点大(或小,根据是大根堆还是小根堆),则交换这两个节点。


       4.重复步骤2-3,直到不需要交换为止,堆的向上调整完成。


       堆的向上调整的时间复杂度为O(logn),其中n为堆的大小。

    一图让你了解~(以大堆为例)

        实现如下:

void swap(HPDataType* s1, HPDataType* s2)
{
  HPDataType temp = *s1;
  *s1 = *s2;
  *s2 = temp;
}
void Adjustup(HPDataType* a, int child)//向上调整
{
  int parent = (child - 1) / 2;
  while (child > 0)
  {
    if (a[child] > a[parent])//建大堆,小堆则<
    {
      swap(&a[child], &a[parent]);
      child = parent;
      parent = (child - 1) / 2;
    }
    else
    {
      break;
    }
  }
}

  向下调整方法

       堆的向下调整方法是指将某个节点的值下放至其子节点中,以维护堆的性质的过程。

       假设当前节点为 i,其左子节点为 2i+1,右子节点为 2i+2,堆的大小为 n

则向下调整的步骤如下:

  1. 从当前节点 i 开始,将其与其左右子节点中较小或较大的节点比较,找出其中最小或最大的节点 j。
  2. 如果节点 i 小于等于(或大于等于,取决于是最小堆还是最大堆)节点 j,则说明它已经满足堆的性质,调整结束;否则,将节点 i 与节点 j 交换位置,并将当前节点 i 更新为 j。
  3. 重复执行步骤 1 和步骤 2,直到节点 i 没有子节点或已经满足堆的性质。

一图让你了解~(以大堆为例) 

        实现如下:

void swap(HPDataType* s1, HPDataType* s2)
{
  HPDataType temp = *s1;
  *s1 = *s2;
  *s2 = temp;
}
void Adjustdown(HPDataType* a, int n, int parent)//向下调整
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] > a[child])//找出两个孩子中较大的那个,此为大堆,如果要实现小堆则 改 >
    {
      ++child;
    }
    if (a[child] > a[parent])//此为大堆,如果要实现小堆则 改 >
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}

✡️二、堆排序

       堆排序的思想

       将待排序的序列构建成一个大根堆或小根堆,然后将堆顶元素与堆底元素交换,再重构堆,重复操作直到有序。堆排序的时间复杂度为O(nlogn),空间复杂度为O(1)。算是一种较为高效的排序方法。

 具体的实现步骤如下:


构建最大堆或最小堆。(建大堆排升序,建小堆排降序)


将堆顶元素(最大或最小值)与堆底元素交换。


从堆顶开始逐级向下调整堆,保证每个节点都符合堆的性质。


重复步骤2和步骤3,直到整个序列有序。


       通常而言我们用的都是向下调整法来建堆以及排序,为什么呢?

       向下调整法具有较好的时间复杂度:与向上调整法相比,向下调整法的时间复杂度更低,因为向下调整法只需要考虑每个非叶子节点的子树是否满足堆性质,而向上调整法需要考虑每个节点到根节点是否满足堆性质,时间复杂度较高。

记住一个公式!(非常重要!!!)

               

       这个公式是用来干什么的呢?用来找第一个有叶子节点的父节点的!

       一图让你了解~

      你可能有一个疑惑,我们这样建堆的意义是什么?答案是我们要将所有节点的左子树以及右子树都建成一个我们需要的堆(建大堆排升序,建小堆排降序)。这样做的意义是:让堆顶的元素在同最后一个堆的元素进行调换位置后,能够仅仅通过一次向下调整,(以大堆为例)就能让堆的最大元素排到队尾,并且不打乱顺序!!!

 在理解了怎么建堆后,对于排序这件事实际上已经很简单了!

      一图让你了解~

     代码实现

void HeapSort(int* a, int n)//整体时间复杂度为nlog(n)
{
  //建大堆排升序,建小堆排降序
  //用的都是向下调整法来建堆以及排序
  //这里演示升序,如果要降序则修改向下调整法中的 > 变为 < ,使得建立的为小堆,并且后面的排序也将为降序!
  //建堆
  for (int i = (n - 1 - 1) / 2; i >= 0; i--)//注意这里的i表示为第一个有叶子结点的父节点
  {
    Adjustdown(a, n, i);
  }
  //排序
  int end = n - 1;
  while (end > 0)
  {
    swap(&a[0], &a[end]);
    Adjustdown(a, end, 0);
    --end;
  }
}

🔯三、TOP-K问题

       什么是TOP-K问题?

       TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。


       对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决。

    基本思路

      1. 用数据集合中前K个元素来建堆
               前k个最大的元素,则建小堆
               前k个最小
的元素,则建大堆
       2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素

               将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K             个最小或者最大的元素。

🌰

       在随机的10000000个数据中找出前5大的数据。(通过文件建立以及读取实现)

        该🌰的堆实现在这篇博文中:堆详解(点我跳转!!!)

       实现如下:

void PrintTopK(const char* filename, int k)
{
  // 1. 建堆--用a中前k个元素建堆
  FILE* fout = fopen(filename, "r");
  if (fout == NULL)
  {
    perror("fopen fail");
    return;
  }
  int* minheap = (int*)malloc(sizeof(int) * k);
  if (minheap == NULL)
  {
    perror("malloc fail");
    return;
  }
  for (int i = 0; i < k; i++)
  {
    fscanf(fout, "%d", &minheap[i]);
  }
  // 前k个数建小堆
  for (int i = (k-2)/2; i >=0 ; --i)
  {
    AdjustDown(minheap, k, i);
  }
  // 2. 将剩余n-k个元素依次与堆顶元素交换,不满则则替换
  int x = 0;
  while (fscanf(fout, "%d", &x) != EOF)
  {
    if (x > minheap[0])
    {
      // 替换你进堆
      minheap[0] = x;
      AdjustDown(minheap, k, 0);
    }
  }
  for (int i = 0; i < k; i++)
  {
    printf("%d ", minheap[i]);
  }
  printf("\n");
  free(minheap);
  fclose(fout);
}
// fprintf  fscanf
void CreateNDate()
{
  // 造数据
  int n = 10000000;
  srand(time(0));
  const char* file = "data.txt";
  FILE* fin = fopen(file, "w");
  if (fin == NULL)
  {
    perror("fopen error");
    return;
  }
  for (int i = 0; i < n; ++i)
  {
    int x = (rand() + i) % 10000000;
    fprintf(fin, "%d\n", x);
  }
  fclose(fin);
}
int main()
{
  //CreateNDate();
  PrintTopK("data.txt", 5);
  return 0;
}



    感谢你耐心的看到这里ღ( ´・ᴗ・` )比心,如有哪里有错误请踢一脚作者o(╥﹏╥)o! 

相关文章
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
596 1
|
存储 算法 搜索推荐
【趣学C语言和数据结构100例】91-95
本文涵盖多个经典算法问题的C语言实现,包括堆排序、归并排序、从长整型变量中提取偶数位数、工人信息排序及无向图是否为树的判断。通过这些问题,读者可以深入了解排序算法、数据处理方法和图论基础知识,提升编程能力和算法理解。
187 4
|
存储 机器学习/深度学习 搜索推荐
【趣学C语言和数据结构100例】86-90
本文介绍并用C语言实现了五种经典排序算法:直接插入排序、折半插入排序、冒泡排序、快速排序和简单选择排序。每种算法都有其特点和适用场景,如直接插入排序适合小规模或基本有序的数据,快速排序则适用于大规模数据集,具有较高的效率。通过学习这些算法,读者可以加深对数据结构和算法设计的理解,提升解决实际问题的能力。
177 4
|
10月前
|
定位技术 C语言
c语言及数据结构实现简单贪吃蛇小游戏
c语言及数据结构实现简单贪吃蛇小游戏
|
11月前
|
搜索推荐 C语言
数据结构(C语言)之对归并排序的介绍与理解
归并排序是一种基于分治策略的排序算法,通过递归将数组不断分割为子数组,直到每个子数组仅剩一个元素,再逐步合并这些有序的子数组以得到最终的有序数组。递归版本中,每次分割区间为[left, mid]和[mid+1, right],确保每两个区间内数据有序后进行合并。非递归版本则通过逐步增加gap值(初始为1),先对单个元素排序,再逐步扩大到更大的区间进行合并,直至整个数组有序。归并排序的时间复杂度为O(n*logn),空间复杂度为O(n),且具有稳定性,适用于普通排序及大文件排序场景。
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
384 5
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
461 1
|
存储 算法
非递归实现后序遍历时,如何避免栈溢出?
后序遍历的递归实现和非递归实现各有优缺点,在实际应用中需要根据具体的问题需求、二叉树的特点以及性能和空间的限制等因素来选择合适的实现方式。
313 59
|
6月前
|
编译器 C语言 C++
栈区的非法访问导致的死循环(x64)
这段内容主要分析了一段C语言代码在VS2022中形成死循环的原因,涉及栈区内存布局和数组越界问题。代码中`arr[15]`越界访问,修改了变量`i`的值,导致`for`循环条件始终为真,形成死循环。原因是VS2022栈区从低地址到高地址分配内存,`arr`数组与`i`相邻,`arr[15]`恰好覆盖`i`的地址。而在VS2019中,栈区先分配高地址再分配低地址,因此相同代码表现不同。这说明编译器对栈区内存分配顺序的实现差异会导致程序行为不一致,需避免数组越界以确保代码健壮性。
144 0
栈区的非法访问导致的死循环(x64)
232.用栈实现队列,225. 用队列实现栈
在232题中,通过两个栈(`stIn`和`stOut`)模拟队列的先入先出(FIFO)行为。`push`操作将元素压入`stIn`,`pop`和`peek`操作则通过将`stIn`的元素转移到`stOut`来实现队列的顺序访问。 225题则是利用单个队列(`que`)模拟栈的后入先出(LIFO)特性。通过多次调整队列头部元素的位置,确保弹出顺序符合栈的要求。`top`操作直接返回队列尾部元素,`empty`判断队列是否为空。 两题均仅使用基础数据结构操作,展示了栈与队列之间的转换逻辑。

热门文章

最新文章