提高数据处理效率的有力工具:TopK算法解析

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 提高数据处理效率的有力工具:TopK算法解析

在现实生活中,TopK算法是非常常见的一种应用,你可能已经在电商平台上使用它来搜索最畅销的商品或者在音乐应用中使用它来发现最受欢迎的歌曲。那么,让我们深入了解TopK算法的原理和实现吧!


TopK是什么



  • TopK算法是一种常见的统计算法,即求数据结合中前K个最大的元素或者最小的元素,一

般情况下数据量都比较大。我们经常需要找出最大的十个销售额最高的商品、最受欢迎的音乐等。这时候TopK算法就非常实用,它可以帮助我们快速地找出所需数据,而不用遍历整个数组。TopK算法是一种非常高效的算法,如使用堆排序思想实现 - TopK时间复杂度为O(nlogk),n是数据的个数,k是需要查询的数据个数。


TopK算法的实现



对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能 数据都不能一下子全部加载到内存中),排序的效率就会变得非常低,甚至无法完成。为了解决这个问题,可以使用一些专门的技术。下面介绍一种处理大数据量Top-K问题的常见方法.


  • 基于比较的排序方法可以用来解决TopK问题,其中最著名的算法是堆排序。堆排序使用堆来

维护前K个元素,堆的大小为K。基本思路如下:


1.用数据集合中前K个元素来建堆

  • 前k个最大的元素,则建小堆
  • 前k个最小的元素,则建大堆


2.用剩余的N-K个元素依次与堆顶元素来比较,(如取前k个最大)如果比堆顶的数据大,就替换他进堆. (覆盖堆顶值,向下调整)


3.将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。


  • 总的来说就是 开辟一段较小的内存空间,先将数据前K个值放入其中,然后用后续的数据

逐个与堆顶数据进行比较,如果大于堆顶数据,则将其插入堆中并调整堆,这样最终堆中保留的就是前K个最大的数。


图析

1.用数据中前K个元素来建堆,假设k是5,把数据前5个建成堆,这个小堆用于存储当前最大的k个元素。e59d81ae0cf54b1eae3caac34eab0829.png


2.用剩余的N-K个元素依次与堆顶元素来比较,因为堆顶元素是该堆最小值,如比堆顶元素大,就替换他进堆. (覆盖堆顶值,向下调整).2b884c1234f44c18bf8a5d671d00a387.png

85487ec3cc304de29f8d5680dbf88109.png

ae416e7addb94fba902a801c57239265.png

ef4f14f72734477aabb741561a2f5e7c.pngec9527f2e0b044dc8e0e4f67b1d57e71.png


889516e4b6d6453087b554c0ce39bdfd.png

3dc5da2f7b454d9ba84c0f878c63ec6a.png


  • 依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最大的元素。


代码实现,详细步骤已写注释


void AdjustDown(int* a, int parent, int sz)
{
    int child = parent * 2 + 1;  // 找到父节点的左孩子
    while (child < sz)  // 当左孩子在sz范围内时
    {
        if (child + 1 < sz && a[child] > a[child + 1])  // 如果左孩子比右孩子大
        {
            child++;  // 则将child指向右孩子
        }
        if (a[parent] > a[child])  // 如果父节点比最小的孩子大
        {
            int tmp = a[parent];
            a[parent] = a[child];
            a[child] = tmp;  // 则交换父节点和孩子节点的值
        }
        else  // 如果父节点比最小的孩子小则堆已经建立完成,退出循环
        {
            break;
        }
        parent = child;  // 否则,继续向下调整
        child = parent * 2 + 1;
    }
}
void PrintTopK(int* a, int n, int k)
{
    // 1. 建堆--用a中前k个元素建堆
    for (int i = (k - 1 - 1) / 2; i >= 0; i--)  // 从数组总长度的一半-1开始,向下调整每一个非叶节点
    {
        AdjustDown(a, i, k);  // 将当前节点向下调整
    }
    // 2. 将剩余n-k个元素依次与堆顶元素比较,如果大于堆顶,则替换堆顶,并向下调整
    for (int i = k; i < n; i++)
    {
        if (a[i] > a[0])  // 如果第i个元素比堆顶元素大
        {
            a[0] = a[i];  // 则将堆顶元素替换为第i个元素
            AdjustDown(a, 0, k);  // 向下调整堆顶元素
        }
    }
    // 打印前k个元素
    for (int i = 0; i < k; i++)
    {
        printf("%d ", a[i]);
    }
}
void TestTopk()
{
    int arr[] = { 6,4,10,2,8,11,3,9,1,7,12,0 };
    int sz = sizeof(arr) / sizeof(*arr);
    PrintTopK(arr, sz, 5);
}


输出结果: 8 9 10 11 12


我们换一个大一点的数据来测试一下.


void AdjustDown(int* a, int parent, int sz)
{
    int child = parent * 2 + 1;  // 找到父节点的左孩子
    while (child < sz)  // 当左孩子在sz范围内时
    {
        if (child + 1 < sz && a[child] > a[child + 1])  // 如果左孩子比右孩子大
        {
            child++;  // 则将child指向右孩子
        }
        if (a[parent] > a[child])  // 如果父节点比最小的孩子大
        {
            int tmp = a[parent];
            a[parent] = a[child];
            a[child] = tmp;  // 则交换父节点和孩子节点的值
        }
        else  // 如果父节点比最小的孩子小则堆已经建立完成,退出循环
        {
            break;
        }
        parent = child;  // 否则,继续向下调整
        child = parent * 2 + 1;
    }
}
// 打印前k个最大的元素
void PrintTopK(int* a, int n, int k)
{
    // 1. 建堆--用a中前k个元素建堆
    for (int i = (k - 1 - 1) / 2; i >= 0; i--)  // 从数组总长度的一半-1开始,向下调整每一个非叶节点
    {
        AdjustDown(a, i, k);  // 将当前节点向下调整
    }
    // 2. 将剩余n-k个元素依次与堆顶元素比较,如果大于堆顶,则替换堆顶,并向下调整
    for (int i = k; i < n; i++)
    {
        if (a[i] > a[0])  // 如果第i个元素比堆顶元素大
        {
            a[0] = a[i];  // 则将堆顶元素替换为第i个元素
            AdjustDown(a, 0, k);  // 向下调整堆顶元素
        }
    }
    // 3. 打印前k个元素
    for (int i = 0; i < k; i++)
    {
        printf("%d ", a[i]);
    }
}
// 测试函数
void TestTopk()
{
    int n = 10000;
    int* a = (int*)malloc(sizeof(int) * n);
    srand(time(0));
    // 生成数组
    for (size_t i = 0; i < n; ++i)
    {
        a[i] = rand() % 1000000;
    }
    // 修改一些元素,这些元素就是最大的.
    a[5] = 1000000 + 1;
    a[1231] = 1000000 + 2;
    a[531] = 1000000 + 3;
    a[5121] = 1000000 + 4;
    a[115] = 1000000 + 5;
    a[2335] = 1000000 + 6;
    a[9999] = 1000000 + 7;
    a[76] = 1000000 + 8;
    a[423] = 1000000 + 9;
    a[3144] = 1000000 + 10;
    // 打印前10个最大的元素
    PrintTopK(a, n, 10);
}


输出结果: 1000001 1000002 1000003 1000004 1000006 1000010 1000007 1000008 1000005 1000009


总结



堆排序是最常用的实作TopK算法的方案之一,时间复杂度为O(nlogk),n是元素总个数,k为需要找到的元素个数。TopK算法可应用于海量数据处理,如专业前10名、世界500强、富豪榜、热点事件分析等领域。总之,TopK算法通常应用于需要在大规模数据中查找最大或最小的K个元素的场景,而堆排序是实现这类算法主要的手段之一,其时间复杂度为O(nlogk)。


目录
相关文章
|
1月前
|
算法 前端开发 数据处理
小白学python-深入解析一位字符判定算法
小白学python-深入解析一位字符判定算法
48 0
|
1月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
41 3
|
1月前
|
搜索推荐 算法
插入排序算法的平均时间复杂度解析
【10月更文挑战第12天】 插入排序是一种简单直观的排序算法,通过不断将未排序元素插入到已排序部分的合适位置来完成排序。其平均时间复杂度为$O(n^2)$,适用于小规模或部分有序的数据。尽管效率不高,但在特定场景下仍具优势。
|
19天前
|
安全 程序员 API
|
13天前
|
自然语言处理 并行计算 数据可视化
免费开源法律文档比对工具:技术解析与应用
这款免费开源的法律文档比对工具,利用先进的文本分析和自然语言处理技术,实现高效、精准的文档比对。核心功能包括文本差异检测、多格式支持、语义分析、批量处理及用户友好的可视化界面,广泛适用于法律行业的各类场景。
|
17天前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
52 4
|
18天前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####
|
1月前
|
机器学习/深度学习 算法 PyTorch
Pytorch-RMSprop算法解析
关注B站【肆十二】,观看更多实战教学视频。本期介绍深度学习中的RMSprop优化算法,通过调整每个参数的学习率来优化模型训练。示例代码使用PyTorch实现,详细解析了RMSprop的参数及其作用。适合初学者了解和实践。
38 1
|
24天前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
30 0
|
1月前
|
存储 前端开发 JavaScript
前端模块化打包工具的深度解析
【10月更文挑战第13天】前端模块化打包工具的深度解析

推荐镜像

更多
下一篇
无影云桌面