数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

简介: 数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

TopK问题介绍:

TOP-K问题:即求数据中找出前K个最大的元素或者最小的元素,一般情况下数据量都比较大

在N个数中找出最大/小的前K个 (比如在1000个数中找出最大/小的前10个)

以前的方法:冒泡排序。时间复杂度: O(N^2)

现在找最大的k个数的方法:

方法1:堆排序降序,前N个就是最大的。上篇学过时间复杂度: O(N*logN)

方法2:N个数依次插入大堆,HeapPop K次,每次取堆顶的数据,即为前K

时间复杂度: O(K*logN)

假设 N非常大, 是 10 亿,内存中存不下这些数,它们存在文件中的。 K是 100,

上面的方法就都不能用了……

话说 10 亿个整数,大概占用多少空间?

1G = 1024MB

1G = 1024*1024KB1G = 1024*1024*1024Byte要占用10亿字节!所以我们来看看方法3:

方法3: 259e410af9ab433e80a770d02c494019.png

这里为什么使用小堆而不使用大堆?

后N-k个数,比小堆堆顶大就换成堆顶

(最后堆顶就是最大的k个数中最小的)

最大的前K个数一定会比其他数要大,只要进来的数比堆顶数据大,就替代它。


因为是小堆(小的在上大的在下),最大的数进去后一定会沉到下面,


所以不可能存在大的数堵在堆顶导致某个数进不去的情况,数越大沉得越深。


对应地,如果使用大堆就会出现一个大数堵在堆顶,剩下的数都比这个大数小,


导致其他数进不来,最后只能选出最大的那一个。


(以下两个力扣题可以用其它排序解决(比如C++中自带的更优的快排)


不过是看你是面向offer还是面向竞赛或刷题了。


(以后学了八大排序可以自己实现一下对应题目优化的快排)以下我们使用堆来解决

剑指 Offer 40. 最小的k个数

难度简单

输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,

则最小的4个数字是1、2、3、4。

示例 1:

输入:arr = [3,2,1], k = 2

输出:[1,2] 或者 [2,1]

示例 2:

输入:arr = [0,1,2,1], k = 1

输出:[0]

限制:

  • 0 <= k <= arr.length <= 10000
  • 0 <= arr[i] <= 10000
/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize){
 
}

解析代码:

(这里是找最小的k个数,所以建k个数的大堆)后arrSize-k个数,比大堆堆顶小就换成堆顶

(最后堆顶就是最小的k个数中最大的)

/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            int tmp = arr[father];
            arr[father] = arr[child];
            arr[child] = tmp;
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize) {
    *returnSize = k;
    if (k == 0)//回头处理k==0
    {
        return NULL;
    }
    int* retArr = (int*)malloc(sizeof(int) * k);
    for (int i = 0;i < k;i++)
    {
        retArr[i] = arr[i];
    }
    for (int i = (k - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(retArr, k, i);
    }
    for (int j = k;j < arrSize;j++)//后arrSize-k个数,比大堆堆顶小就换成堆顶
    {
        if (arr[j] < retArr[0])
        {
            retArr[0] = arr[j];
            justDown(retArr, k, 0);//把新换的堆顶向下调整(小的就下去了),以便下次交换
        }
    }
    //*returnSize = k; 写到这发现有个测试用例跑不了,到上面处理一下
    return retArr;
}

剑指 Offer II 076. 数组中的第 k 大的数字

难度中等

给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。

请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。

示例 1:

输入:[3,2,1,5,6,4] 和 k = 2
输出: 5

示例 2:

1. 输入:[3,2,3,1,2,4,5,5,6] 和 k = 4
2. 输出: 4

提示:

  • 1 <= k <= nums.length <= 10^4
  • -10^4 <= nums[i] <= 10^4
int findKthLargest(int* nums, int numsSize, int k){
 
}

解析代码:

这里我们需要把整个数组建成一个大堆,然后pop(k-1)次堆顶的元素后堆顶的元素就是第k大的数。

void Swap(int* px, int* py)
{
    int tmp = *px;
    *px = *py;
    *py = tmp;
}
 
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            Swap(&arr[father], &arr[child]);
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
 
int findKthLargest(int* nums, int numsSize, int k) {
    for (int i = (numsSize - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(nums, numsSize, i);
    }
    // 删除数据(参考前面文章堆的pop)
    for (int i = 1;i <= k - 1;i++)
    {
        Swap(&nums[0], &nums[numsSize - i]);
        justDown(nums, numsSize - i, 0);//删除多少个numsize-多少个
    }
    return nums[0];
}

堆的概念选择题:

1.下列关于堆的叙述错误的是( )

A.堆是一种完全二叉树

B.堆通常使用顺序表存储

C.小堆指的是左右孩子结点都比根结点小的堆

D.堆的删除是将尾部结点放到队顶后执行向下调整算法

2.下列关键字序列中,序列( )是堆。

A.{16,72,31,23,94,53}

B.{94,23,31,72,16,53}

C.{16,53,23,94,31,72}

D.{16,23,53,31,94,72}

3.下列关于向下调整算法的说法正确的是( )

A.构建堆的时候要对每个结点都执行一次

B.删除操作时要执行一次

C.插入操作时要执行一次

D.以上说法都不正确

4.在一个堆中,根节点从0开始编号,下标为 i(i > 0) 的结点的左右孩子结点及父结点的下标分别是( )

A.2 i、2 i + 1、i /2

B.2i、2i + 1、(i - 1)/2

C.2i + 1、2i + 2、(i - 1)/2

D.2i + 1、2i + 2、i/2-1

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为( )

A.O(nlogn)

B.O(logn)

C.O(1)

D.O(n)

答案:

1.答案:C

堆是在完全二叉树的基础上进行了条件的限制,即:每个节点都比其孩子节点大,则为大堆;

每个节点都比其孩子节点小则为小堆。

完全二叉树比较适合使用顺序结构存储。


堆删除:删的是堆顶元素,常见操作是将堆顶元素与堆中最后一个元素交换,


然后对中元素个数减少一个,重新将堆顶元素往下调整


2.答案:D


D.{16,23,53,31,94,72}


16


23 53


31 94 72


3.答案:B


解析:


A: 建堆时,从每一个非叶子节点开始,倒着一直到根节点,都要执行一次向下调整算法。


B: 删除元素时,首先交换堆顶元素与堆中最后一个元素,对中有效元素个数减1,即删除了堆中最后一个元素,最后将堆顶元素向下调整


C: 插入操作需要执行向上调整算法。


4.答案:C


请参考二叉树性质


5.答案:D


题目说了是利用向下调整的方式建堆, 正确的证明方法应当如下:


A.具有n个元素的平衡二叉树,树高为㏒n,我们设这个变量为h。


B.最下层非叶节点的元素,只需做一次线性运算便可以确定大根,而这一层具有2^(h-1)个元素,


我们假定O(1)=1,那么这一层元素所需时间为2^(h-1) × 1。


C.由于是bottom-top建立堆,因此在调整上层元素的时候,并不需要同下层所有元素做比较,只需要同其中之一分支作比较,而作比较次数则是树的高度减去当前节点的高度。因此,第x层元素的计算量为2^(x) × (h-x)。


D.又以上通项公式可得知,构造树高为h的二叉堆的精确时间复杂度为:


S = 2^(h-1) × 1 + 2^(h-2) × 2 + …… +1 × (h-1) ①


E.通过观察第四步得出的公式可知,该求和公式为等差数列和等比数列的乘积,因此用错位相减法求解,给公式左右两侧同时乘以2,可知:


2S = 2^h × 1 + 2^(h-1) × 2+ …… +2 × (h-1) ②


用②减去①可知: S =2^h × 1 - h +1 ③


将h = ㏒n 带入③,得出如下结论:


S = n - ㏒n +1 = O(n)

本篇完。

目录
相关文章
|
2天前
|
算法 Java 机器人
Java数据结构与算法:最大堆
Java数据结构与算法:最大堆
|
2天前
|
算法 Java 机器人
Java数据结构与算法:最小堆
Java数据结构与算法:最小堆
|
6天前
|
搜索推荐 算法
【排序】数据结构——排序算法概念及代码详解(插入、冒泡、快速、希尔)
【排序】数据结构——排序算法概念及代码详解(插入、冒泡、快速、希尔)
|
3天前
|
Python
数据结构===堆
数据结构===堆
|
3天前
|
存储 算法 Java
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
|
6天前
|
存储 算法
【二叉树】数据结构——BST二叉树基本概念及算法设计(插入、删除、遍历操作)
【二叉树】数据结构——BST二叉树基本概念及算法设计(插入、删除、遍历操作)
|
1天前
|
机器学习/深度学习 算法
基于鲸鱼优化的knn分类特征选择算法matlab仿真
**基于WOA的KNN特征选择算法摘要** 该研究提出了一种融合鲸鱼优化算法(WOA)与K近邻(KNN)分类器的特征选择方法,旨在提升KNN的分类精度。在MATLAB2022a中实现,WOA负责优化特征子集,通过模拟鲸鱼捕食行为的螺旋式和包围策略搜索最佳特征。KNN则用于评估特征子集的性能。算法流程包括WOA参数初始化、特征二进制编码、适应度函数定义(以分类准确率为基准)、WOA迭代搜索及最优解输出。该方法有效地结合了启发式搜索与机器学习,优化特征选择,提高分类性能。
|
4天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
19 6
|
1天前
|
缓存 算法
基于机会网络编码(COPE)的卫星网络路由算法matlab仿真
**摘要:** 该程序实现了一个基于机会网络编码(COPE)的卫星网络路由算法,旨在提升无线网络的传输效率和吞吐量。在MATLAB2022a中测试,结果显示了不同数据流个数下的网络吞吐量。算法通过Dijkstra函数寻找路径,计算编码机会(Nab和Nx),并根据编码机会减少传输次数。当有编码机会时,中间节点执行编码和解码操作,优化传输路径。结果以图表形式展示,显示数据流与吞吐量的关系,并保存为`R0.mat`。COPE算法预测和利用编码机会,适应卫星网络的动态特性,提高数据传输的可靠性和效率。
|
4天前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。