priori 算法的影响因素分析| 学习笔记

简介: 快速学习 priori 算法的影响因素分析。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):priori 算法的影响因素分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15637


priori 算法的影响因素分析

 

在上一节中,我们已经向大家介绍了 Apriori 算法中如何产生频繁项集以及如何产生规则。

在今天的内容中,我们向大家介绍一下影响 Apriori 算法计算复杂度的因素。

image.png

影响 apriori 算法这种复杂的因素主要包含四个,第一个就是最小支持度阈值的选择,第二个是数据集的维度,也就是数据集的项的数,第三个是数据集的规模及数据集中包含事物的数目。第四个是事物的平均宽度,即平均一个事物包含项的数目。

首先我们来看一下最小支持度阈值对 Apriori 算法计算复杂度的影响。在 apriori 算法中,如果我们设置的最小支持度阈值比较小的话,那么就有可能会导致更多的频繁项集。

那么如果我们的支持度阈值涉及的少,首先频繁项集的个数会多,其次,频繁项集的最大长度也可能增加,这些因素都会导致我们 apriori 算法计算复杂度的增加。

第二点,影响因素是数据集的维度,数据集的维度是数据集包含项的数目。如果数据集的向数目比较多,那么在进行支持度计算的时候,我们就需要更多的空间。其次,如果事物集的项数目比较多,那么会导致频繁项集数目的增多,这也会增加 apriori 算法计算中的 IO 的开销。

第三个影响因素是数据库的规模,也就是数据集中包含事物的数目。如果事务数据集中包含事物的数目比较多,那么在进行支持度计数的时候,我们需要将每一个事物和所有的候选频繁相机进行比较。那么它的运行时间就会比较长,这样就会增加 Apriori 算法的计算复杂度。第四个影响因素是事物的平均宽度,就是平均一个项目包含项的数目。如果事物的平均宽度比较高的话,那么就会增加我们频繁项集的最大长度,如果频繁项集的最大长度会增加,那么也就是我们频繁项集的数目会增加。

其次,如果事物的平均宽度比较高,那么它所包含的子集个数会比较多,在进行支持度计数的时候,需要比较的次数也就会多,那么这样就会增加 apriori 算法的计算复杂度。

相关文章
|
24天前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
49 4
|
3月前
|
数据采集 机器学习/深度学习 算法
|
3月前
|
人工智能 算法 BI
第一周算法设计与分析 D : 两面包夹芝士
这篇文章介绍了解决算法问题"两面包夹芝士"的方法,通过找出两个数组中的最大最小值,计算这两个值之间的整数个数,包括特判不存在整数的情况。
|
7天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
13天前
|
算法
PID算法原理分析
【10月更文挑战第12天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
19天前
|
算法
PID算法原理分析及优化
【10月更文挑战第6天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
2月前
|
算法 搜索推荐 开发者
别再让复杂度拖你后腿!Python 算法设计与分析实战,教你如何精准评估与优化!
在 Python 编程中,算法的性能至关重要。本文将带您深入了解算法复杂度的概念,包括时间复杂度和空间复杂度。通过具体的例子,如冒泡排序算法 (`O(n^2)` 时间复杂度,`O(1)` 空间复杂度),我们将展示如何评估算法的性能。同时,我们还会介绍如何优化算法,例如使用 Python 的内置函数 `max` 来提高查找最大值的效率,或利用哈希表将查找时间从 `O(n)` 降至 `O(1)`。此外,还将介绍使用 `timeit` 模块等工具来评估算法性能的方法。通过不断实践,您将能更高效地优化 Python 程序。
50 4
|
2月前
|
算法 程序员 Python
程序员必看!Python复杂度分析全攻略,让你的算法设计既快又省内存!
在编程领域,Python以简洁的语法和强大的库支持成为众多程序员的首选语言。然而,性能优化仍是挑战。本文将带你深入了解Python算法的复杂度分析,从时间与空间复杂度入手,分享四大最佳实践:选择合适算法、优化实现、利用Python特性减少空间消耗及定期评估调整,助你写出高效且节省内存的代码,轻松应对各种编程挑战。
34 1
|
2月前
|
算法 数据可视化
基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真
奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。
101 19
|
3月前
|
算法
算法设计与分析作业
这篇文章是关于算法设计与分析的作业,其中包含了两个算法实现:一个是使用分治算法实现的十进制大整数相乘(包括加法、减法和乘法函数),并进行了正确性和健壮性测试;另一个是使用快速排序思想实现的分治查找第K小元素的程序,并分析了其平均和最坏时间复杂度。
算法设计与分析作业