【数据结构】堆排序和top-K问题

简介: 【数据结构】堆排序和top-K问题

堆的实现源码

#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <stdbool.h>
#include <assert.h>
typedef struct Heap
{
  int* a;
  int size;
  int capacity;
}Heap;
void HeapInit(Heap* st)
{
  st->a = NULL;
  st->capacity = 0;
  st->size = 0;
}
void swap(int* str1, int* str2)
{
  int tmp = *str1;
  *str1 = *str2;
  *str2 = tmp;
}
void Adjustup(int* a, int child)
{
  int parent = (child - 1) / 2;
  while (child > 0)
  {
    if (a[child] < a[parent])
    {
      swap(&a[child], &a[parent]);
      child = parent;
      parent = (child - 1) / 2;
    }
    else
    {
      break;
    }
  }
}
void HeapPush(Heap* st, int x)
{
  if (st->capacity == st->size)
  {
    int newcapcity = st->capacity == 0 ? 4 : st->capacity * 2;
    int* tmp = (int*)realloc(st->a, newcapcity * sizeof(int));
    if (tmp == NULL)
    {
      perror("realloc fail");
    }
    st->a = tmp;
    st->capacity = newcapcity;
  }
  st->a[st->size] = x;
  st->size++;
  Adjustup(st->a, st->size - 1);
}
void Heapprint(Heap* st)
{
  for (int i = 0; i < st->size; i++)
  {
    printf("%d ", st->a[i]);
  }
}
void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] < a[child])
    {
      child++;
    }
    if (a[child] < a[parent])
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
bool HeapEmpty(Heap* st)
{
  assert(st);
  if (st->size == 0)
  {
    return true;
  }
  else
  {
    return false;
  }
}
int HeapSize(Heap* st)
{
  assert(st);
  return st->size;
}
void HeapPop(Heap* hp)
{
  assert(hp);
  assert(!HeapEmpty(hp));
  swap(&hp->a[0], &hp->a[hp->size - 1]);
  hp->size--;
  AdjustDown(hp->a, hp->size, 0);
}
void HeapDestroy(Heap* st)
{
  assert(st);
  free(st->a);
  st->a = NULL;
  st->size = 0;
  st->capacity = 0;
}
int HeapTop(Heap* st)
{
  assert(st);
  assert(!HeapEmpty(st));
  return st->a[0];
}

使用堆结构实现堆排序

void HeapSort(int* a, int n)
{
  Heap hp;
  HeapInit(&hp);//初始化堆
for (int i = 0; i < 10; i++)
{
  HeapPush(&hp, a[i]);//堆中插入元素,每次插入做向上调整.保证堆是小堆
}
while (!HeapEmpty(&hp))//如果堆不为空的话
{
  int top=HeapTop(&hp);//每次取堆顶数据为最小
  printf("%d ", top);
  HeapPop(&hp);//删除堆顶元素时,重新调整堆,使其还是小堆
}
}

主函数

int main()
{
  
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
}

编译运行

如果用上述方法写堆的话,还必须写一个堆的结构,特别麻烦.

排序方法2

1.排列升序

我们可以直接使用向上调整和向下调整建堆,实质上的堆只是数组,向上调正和向下调整只是操作下标而已.

排列升序我们应该创建大堆还是小堆,如果不仔细想一想的话,可能是创建一个小堆,然后依次取对顶元素,但是如果依次取堆顶元素的话,剩下的元素就不能构成一个堆,堆的关系就全乱了.如下图所示.取出堆顶的小元素.重新排列的话.

因此我们如果要排升序的话,就创建大堆,我们既可以用向上调整创建大堆,也可以用向下调整创建大堆

向下调整创建大堆

void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] >a[child])//这里要选大的孩子和父亲交换
    {
      child++;
    }
    if (a[child] >a[parent])//比父亲大的孩子向上走.
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = (n - 1 - 1) / 2; i >=0; --i)//从最后一个非子叶节点开始走.直到堆顶的元素
  {
    AdjustDown(a, n, i);
  }
  
  
  
  
  
  
  
}
int main()
{
  Heap hp;
  //createdata();
  //printtopK(10);
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
  for (int i = 0; i < 10; i++)
  {
    printf("%d ", arr[i]);
  }
  
}

向上调整创建大堆

void Adjustup(int* a, int child)
{
  int parent = (child - 1) / 2;
  while (child > 0)
  {
    if (a[child] > a[parent])
    {
      swap(&a[child], &a[parent]);
      child = parent;
      parent = (child - 1) / 2;
    }
    else
    {
      break;
    }
  }
}
void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = 1; i < n; i++)
  {
    Adjustup(a, i);
   }
  //for (int i = (n - 1 - 1) / 2; i >=0; --i)
  //{
  //  AdjustDown(a, n, i);
  //}
  
  
  
  
  
  
}
int main()
{
  Heap hp;
  //createdata();
  //printtopK(10);
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
  for (int i = 0; i < 10; i++)
  {
    printf("%d ", arr[i]);
  }
  
}

创建的大堆

然后将创建好的大堆进行排序

修改后的堆排序

void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = (n - 1 - 1) / 2; i >=0; --i)
  {
    AdjustDown(a, n, i);
  }
  
    int end = n - 1;
while (end > 0)
{
  swap(&a[0], &a[end]);
  AdjustDown(a, end, 0);
  --end;
}
}

排降序

由排升序创建大堆,则排降序创建小堆,创建小堆既可以用向上调整法,还可以使用向下调整

向下调整创建小堆

void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] <a[child])
    {
      child++;
    }
    if (a[child] <a[parent])
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = (n - 1 - 1) / 2; i >=0; --i)
  {
    AdjustDown(a, n, i);
  }
  
  
  
  
  
  
}
int main()
{
  Heap hp;
  //createdata();
  //printtopK(10);
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
  for (int i = 0; i < 10; i++)
  {
    printf("%d ", arr[i]);
  }
  
}

向上调整创建小堆

void Adjustup(int* a, int child)
{
  int parent = (child - 1) / 2;
  while (child > 0)
  {
    if (a[child] < a[parent])
    {
      swap(&a[child], &a[parent]);
      child = parent;
      parent = (child - 1) / 2;
    }
    else
    {
      break;
    }
  }
}
void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = 1; i < n; i++)
  {
    Adjustup(a, i);
   }
  //for (int i = (n - 1 - 1) / 2; i >=0; --i)
  //{
  //  AdjustDown(a, n, i);
  //}
  
  
  
  
  
  
}
int main()
{
  Heap hp;
  //createdata();
  //printtopK(10);
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
  for (int i = 0; i < 10; i++)
  {
    printf("%d ", arr[i]);
  }
  
}

将创建好的小堆进行排序

void Adjustup(int* a, int child)
{
  int parent = (child - 1) / 2;
  while (child > 0)
  {
    if (a[child] < a[parent])
    {
      swap(&a[child], &a[parent]);
      child = parent;
      parent = (child - 1) / 2;
    }
    else
    {
      break;
    }
  }
}
void HeapSort(int* a, int n)
{
  Heap hp;
  for (int i = 1; i < n; i++)
  {
    Adjustup(a, i);
   }
  //for (int i = (n - 1 - 1) / 2; i >=0; --i)
  //{
  //  AdjustDown(a, n, i);
  //}
      int end = n - 1;
while (end > 0)
{
  swap(&a[0], &a[end]);
  AdjustDown(a, end, 0);
  --end;
}
  
  
  
  
  
}
int main()
{
  Heap hp;
  //createdata();
  //printtopK(10);
  int arr[10] = { 52,85,74,46,23,14,65,25,32,78 };
  HeapSort(arr, 10);
  for (int i = 0; i < 10; i++)
  {
    printf("%d ", arr[i]);
  }
  
}

总结:创建大堆或者小堆都可以用向上调整和向下调整,如果创建大堆对应的调整必须修改成孩子大于父亲进行交换,这样的话就可以把大数放在堆顶上.,如果创建小堆的话,孩子小于父亲的话,在进行交换,值得注意的是,创建大堆时,并且使用向下调整的话,需要将孩子的下标落在左右孩子较大的孩子身上.创建小堆时,需要将孩子的下标落在左右孩子较小的身上.


top-K问题

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:

  1. 用数据集合中前K个元素来建堆
    前k个最大的元素,则建小堆
    前k个最小的元素,则建大堆
  2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

找最大的10个

#define _CRT_SECURE_NO_WARNINGS
#include<stdio.h>
#include <stdlib.h>//srand头文件
#include <time.h>//time头文件
void swap(int* str1, int* str2)//交换两个数据的值
{
  int tmp = *str1;
  *str1 = *str2;
  *str2 = tmp;
}
void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] < a[child])
    {
      child++;
    }
    if (a[child] < a[parent])
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
void createdata()
{
  int n = 10000;
  srand((unsigned int)time(NULL));//产生随机数种子
  FILE* fp = fopen("xa.txt", "w");//以写的方式打开文件
  if (fp == NULL)
  {
    perror("fopen fail");
    return;
  }
  for (int i = 0; i < 10000; i++)//产生10000个随机数,
  {
    int x = rand()%10000;//并且每一个随机数都是小于10000.
    fprintf(fp,"%d\n",x);//将其写入文件中,并且换行 
    }
  fclose(fp);
}
void printtopk(int k)
{
  FILE* fp = fopen("xa.txt", "r");
  if (fp == NULL)
  {
    perror("fopen fail");
    return;
  }
  int* kminheap = (int*)malloc(sizeof(int) * k);//动态申请10个空间大小
  if (kminheap == NULL)
  {
    perror("malloc fail");
  }
  for (int i = 0; i < k; i++)
  {
    fscanf(fp,"%d",&kminheap[i]);//先读取文件前10个数据
    
  } 
  for (int i = (k - 1 - 1) / 2; i >= 0; i--)//向下调整为小堆,因为选最大的10个要排小堆
  {
    AdjustDown(kminheap, k, i);
    
    }
  int val = 0;
  while (!feof(fp))//文件中剩下的数据需要与小堆中堆顶元素比较,如果大于堆顶元素,就把堆顶元素更新
  {
    fscanf(fp,"%d", &val);//读取文件中的数据到val中
    if (val > kminheap[0])
    {
      kminheap[0] = val;
      AdjustDown(kminheap, k,0);//比堆顶最小的大,就入堆,然后将堆顶元素向下调整,调整后,还需要保证是小堆。
    }
  }
  for (int i = 0; i < k; i++)
  {
    printf("%d ", kminheap[i]);
  }
}
int main()
{
  createdata();
  printtopk(10);
}

找最小的10个

需要创建大堆

#define _CRT_SECURE_NO_WARNINGS
#include<stdio.h>
#include <stdlib.h>
#include <time.h>
void swap(int* str1, int* str2)
{
  int tmp = *str1;
  *str1 = *str2;
  *str2 = tmp;
}
void AdjustDown(int* a, int n, int parent)
{
  int child = parent * 2 + 1;
  while (child < n)
  {
    if (child + 1 < n && a[child + 1] > a[child])
    {
      child++;
    }
    if (a[child] > a[parent])
    {
      swap(&a[child], &a[parent]);
      parent = child;
      child = parent * 2 + 1;
    }
    else
    {
      break;
    }
  }
}
void createdata()
{
  int n = 10000;
  srand((unsigned int)time(NULL));
  FILE* fp = fopen("xa.txt", "w");
  if (fp == NULL)
  {
    perror("fopen fail");
    return;
  }
  for (int i = 0; i < 10000; i++)
  {
    int x = rand()%10000;
    fprintf(fp,"%d\n",x);
    }
  fclose(fp);
}
void printtopk(int k)
{
  FILE* fp = fopen("xa.txt", "r");
  if (fp == NULL)
  {
    perror("fopen fail");
    return;
  }
  int* kminheap = (int*)malloc(sizeof(int) * k);
  if (kminheap == NULL)
  {
    perror("malloc fail");
  }
  for (int i = 0; i < k; i++)
  {
    fscanf(fp,"%d",&kminheap[i]);
    
  } 
  for (int i = (k - 1 - 1) / 2; i >= 0; i--)
  {
    AdjustDown(kminheap, k, i);
    
    }
  int val = 0;
  while (!feof(fp))
  {
    fscanf(fp,"%d", &val);
    if (val <kminheap[0])
    {
      kminheap[0] = val;
      AdjustDown(kminheap, k,0);
    }
  }
  for (int i = 0; i < k; i++)
  {
    printf("%d ", kminheap[i]);
  }
}
int main()
{
  createdata();
  printtopk(10);
}

目录
相关文章
|
6月前
|
算法 Python
数据结构算法--4堆排序
堆排序过程概述:建立大根堆,将堆顶最大元素移出并替换为末尾元素,调整保持堆性质,重复此过程直至堆为空,实现排序。时间复杂度为O(nlogn)。Python中可用heapq模块进行堆操作。
|
2月前
|
算法 搜索推荐
数据结构与算法学习十八:堆排序
这篇文章介绍了堆排序是一种通过构建堆数据结构来实现的高效排序算法,具有平均和最坏时间复杂度为O(nlogn)的特点。
81 0
数据结构与算法学习十八:堆排序
|
5月前
|
存储 算法
【数据结构】堆,堆的实现,堆排序,TOP-K问题
数据结构——堆,堆的实现,堆排序,TOP-K问题
52 1
【数据结构】堆,堆的实现,堆排序,TOP-K问题
|
4月前
|
搜索推荐 算法
【初阶数据结构篇】插入、希尔、选择、堆排序介绍(上篇)
堆排序(Heapsort)是指利⽤堆积树(堆)这种数据结构所设计的⼀种排序算法,它是选择排序的⼀ 种。它是通过堆来进⾏选择数据。需要注意的是排升序要建⼤堆,排降序建⼩堆。
23 0
|
4月前
|
算法
【初阶数据结构篇】堆的应用(堆排序与Top-K问题)
即求数据结合中前K个最⼤的元素或者最⼩的元素,⼀般情况下数据量都⽐较⼤。
53 0
|
5月前
|
搜索推荐
【数据结构常见七大排序(二)】—选择排序篇【直接选择排序】And【堆排序】
【数据结构常见七大排序(二)】—选择排序篇【直接选择排序】And【堆排序】
|
7月前
|
存储 搜索推荐 算法
[数据结构]————排序总结——插入排序(直接排序和希尔排序)—选择排序(选择排序和堆排序)-交换排序(冒泡排序和快速排序)—归并排序(归并排序)
[数据结构]————排序总结——插入排序(直接排序和希尔排序)—选择排序(选择排序和堆排序)-交换排序(冒泡排序和快速排序)—归并排序(归并排序)
|
6月前
|
存储 算法 C语言
数据结构和算法——堆排序(选择排序、思路图解、代码、时间复杂度、堆排序及代码)
数据结构和算法——堆排序(选择排序、思路图解、代码、时间复杂度、堆排序及代码)
41 0
|
6月前
|
测试技术
深入理解数据结构第二弹——二叉树(2)——堆排序及其时间复杂度
深入理解数据结构第二弹——二叉树(2)——堆排序及其时间复杂度
74 0
|
1月前
|
C语言
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
210 9