【数据结构】用堆解决Top-K问题

简介: 生活中我们每每都会遇到Top-K问题,例如搜索附近前几的的动漫,频率前几的搜索词条等等

应用背景


生活中我们每每都会遇到Top-K问题,例如搜索附近前几的的动漫,频率前几的搜索词条等等


  • 示例:


75.png

如果只是数据比较少的,我们可以排序找到前几的数据,但是实际应用中我们时常都会面对海量的数据,大到内存无法全部加载,这就需要我们用数据结构中的堆来解决


处理策略


  • 首先我们知道:


对于大堆,堆顶的数据一定是堆里面数据中最大的;对于小堆,堆顶的数据一定是堆里面数据中最小的


对于找最大前k:


利用小根堆维护一个大小为K的数组,目前该小根堆中的元素是排名前K的数,其中根是最小的数

此后,每次从数据中取一个元素与根进行比较,如大于根的元素,则将根元素替换并进行向下调整(下沉)

即保证小根堆中的元素仍然是排名前K的数,且根元素仍然最小(否则不予处理)


时间复杂度


总结:该算法的时间复杂度是(nlogk)


首先需要对K个元素进行建堆,时间复杂度为O(k)


建堆复杂度证明:


76.png


然后要遍历数据,最坏的情况是每个元素都与堆顶比较并排序,需要堆化n次

每次最差都下调高度次,而高度为log(k),所以是O(nlog(k))

因此总复杂度是O(k+nlog(k)),也就是O(nlogk)


过程及实现代码


  • 图示过程:

77.png


参考代码:

// TopK问题:找出N个数里面最大/最小的前K个问题
// 找最大的前K个,建立K个数的小堆
// 找最小的前K个,建立K个数的大堆
void PrintTopK(int* a, int n, int k)//对大的前K
{
  HP hp;
  HeapInit(&hp);
  for (int i = 0; i < k; i++)//建立一个小堆
  {
    HeapPush(&hp, a[i]);
  }
  for (int i = k; i < n ; i++)
  {
    if (HeapTop(&hp) < a[i])//比较和调整(维护堆,保证始终是最大的前K)
    {
      hp.a[0] = a[i];
      AdjustDown(hp.a, k, 0);
    }
  }
  HeapPrint(&hp);
}


测试


  • 测试代码:
void TestTopk()
{
  int n = 1000000;
  int* a = (int*)malloc(sizeof(int) * n);
  srand(time(0));
  for (size_t i = 0; i < n; ++i)//产生一万个数据
  {
    a[i] = rand() % 1000000;//都比100w小的数
  }
  // 再去设置10个比100w大的数(随机设置)
  a[5] = 1000000 + 1;
  a[1231] = 1000000 + 2;
  a[5355] = 1000000 + 3;
  a[51] = 1000000 + 4;
  a[15] = 1000000 + 5;
  a[2335] = 1000000 + 6;
  a[9999] = 1000000 + 7;
  a[76] = 1000000 + 8;
  a[423] = 1000000 + 9;
  a[3144] = 1000000 + 10;
  PrintTopK(a, n, 10);//打印
}


结果示图:

78.png


源码


注:C语言堆的实现


#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <stdbool.h>
//默认堆中的数据类型
typedef int HPDataType;
//堆结构体类型
typedef struct Heap
{
  HPDataType* a;//数组指针(指向动态开辟的空间)
  int size;//堆中存放的数据个数
  int capacity;//堆的容量(数组长度)
}HP;
//堆初始化
void HeapInit(HP* hp);
//堆销毁
void HeapDestroy(HP* hp);
//入堆
void HeapPush(HP* hp, HPDataType x);
//出堆
void HeapPop(HP* hp);
//堆数据打印
void HeapPrint(HP* hp);
//堆顶数据
HPDataType HeapTop(HP* hp);
//堆存入数据个数
int HeapSize(HP* hp);
// 堆的判空
bool HeapEmpty(HP* hp);
//交换函数
void Swap(HPDataType* a, HPDataType* b);
//数据调整(实现大堆)
void AdjustUp(HPDataType* a, int child);
//数据调整
void AdjustDown(HPDataType* a, int size, int parent);
//堆初始化
void HeapInit(HP* hp)
{
  assert(hp);//避免传入参数错误
  //初始化
  hp->a = NULL;
  hp->size = hp->capacity = 0;
}
//堆销毁
void HeapDestroy(HP* hp)
{
  assert(hp);//避免传入参数错误
  //释放
  free(hp->a);
  hp->capacity=hp->size=0;
}
//数据调整
void AdjustUp(HPDataType* a, int child)//
{
  int parent = (child - 1) / 2;
  while (child)
  {
    if (a[parent] > a[child])//不符合情况交换
      Swap(&a[parent], &a[child]);
    else
      break;
    //调整下标
    child = parent;
    parent = (child - 1) / 2;
  }
}
//数据调整
void AdjustDown(HPDataType* a, int size, int parent)
{
  int child = parent * 2 + 1;
  while (child<size)
  {   
    //找到数据小的儿子
    if (child + 1 < size && a[child + 1] < a[child])
    {
      child++;
    }
    //将父节点与小子节点交换
    if (a[child] < a[parent])
    {
      Swap(&a[child], &a[parent]);//交换数据
      parent = child;//调整下标位置
      child = parent * 2 + 1;
    }
    else
    {
      break;//结束调整
    }
  }
}
//入堆
void HeapPush(HP* hp, HPDataType x)
{
  assert(hp);//避免传入参数错误
  //满堆的情况
  if (hp->size == hp->capacity)
  {
    //如果容量为0则开辟4个空间,否则扩展成原来的两倍
    int newcapacity = hp->capacity == 0 ? 4 : hp->capacity * 2;
    HP* tmp = (HP*)realloc(hp->a, sizeof(HP) * newcapacity);
    if (tmp == NULL)//开辟失败则打印错误并结束进程
    {
      perror("realloc fail:");
      exit(-1);
    }
    hp->capacity = newcapacity;
    hp->a = tmp;
  }
  //入堆操作
  hp->a[hp->size] = x;//入尾端,再调整
  hp->size++;
  //数据调整
  AdjustUp(hp->a, hp->size - 1);//传入数组地址和下标
}
//出堆(删除堆顶的数据)
void HeapPop(HP* hp)
{
  assert(hp);//避免传入参数错误
  assert(hp->size);//空堆的情况
  Swap(&hp->a[0], &hp->a[hp->size - 1]);//先将堆顶数据与堆尾交换
  hp->size--;//再将记录数据个数变量减减实现删除的效果
  //对现在堆顶的数据进行下调
  AdjustDown(hp->a, hp->size, 0);
}
//堆数据打印
void HeapPrint(HP* hp)
{
  assert(hp);//避免传入参数错误
  for (int i = 0; i < hp->size; i++)
  {
    printf("%d ", hp->a[i]);
  }printf("\n");
}
//堆存入数据个数
int HeapSize(HP* hp)
{
  assert(hp);//避免传入参数错误
  return hp->size;
}
// 堆的判空
bool HeapEmpty(HP* hp)
{
  assert(hp);//避免传入参数错误
  return hp->size==0;
}
//交换函数
void Swap(HPDataType* a, HPDataType* b)
{
  HPDataType tmp = *a;
  *a = *b;
  *b = tmp;
}

有问题欢迎留言,可以的话留下你的三连哦!


相关文章
|
2月前
|
存储 算法 Java
散列表的数据结构以及对象在JVM堆中的存储过程
本文介绍了散列表的基本概念及其在JVM中的应用,详细讲解了散列表的结构、对象存储过程、Hashtable的扩容机制及与HashMap的区别。通过实例和图解,帮助读者理解散列表的工作原理和优化策略。
51 1
散列表的数据结构以及对象在JVM堆中的存储过程
|
2月前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
129 16
|
3月前
|
存储 JavaScript 前端开发
为什么基础数据类型存放在栈中,而引用数据类型存放在堆中?
为什么基础数据类型存放在栈中,而引用数据类型存放在堆中?
146 1
|
3月前
|
存储 算法 调度
数据结构--二叉树的顺序实现(堆实现)
数据结构--二叉树的顺序实现(堆实现)
|
3月前
|
存储 算法 分布式数据库
【初阶数据结构】理解堆的特性与应用:深入探索完全二叉树的独特魅力
【初阶数据结构】理解堆的特性与应用:深入探索完全二叉树的独特魅力
|
3月前
|
存储 算法
探索数据结构:分支的世界之二叉树与堆
探索数据结构:分支的世界之二叉树与堆
|
3月前
|
存储 算法 Java
【用Java学习数据结构系列】用堆实现优先级队列
【用Java学习数据结构系列】用堆实现优先级队列
47 0
|
3月前
|
存储 算法
【数据结构】二叉树——顺序结构——堆及其实现
【数据结构】二叉树——顺序结构——堆及其实现
|
3月前
【数据结构】大根堆和小根堆
【数据结构】大根堆和小根堆
82 0
|
3月前
|
存储 算法 搜索推荐
数据结构--堆的深度解析
数据结构--堆的深度解析

热门文章

最新文章