【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )

文章目录

一、 数据挖掘算法组件化思想

二、 Apriori 算法 ( 关联分析算法 )

三、 K-means 算法 ( 聚类分析算法 )

四、 ID3 算法 ( 决策树算法 )



一、 数据挖掘算法组件化思想


0 . 数据挖掘算法的五个标准组件 :


① 模型或模式结构 : 决策树模型 , ( 信念 ) 贝叶斯模型 , 神经网络模型 等 ;

② 数据挖掘任务 : 概念描述 , 关联分析 , 分类 , 聚类 , 异常检测 , 趋势分析 等 ;

③ 评分函数 : 误差平方和 , 最大似然 , 准确率 等 ;

④ 搜索和优化方法 : 随机梯度下降 ;

⑤ 数据管理策略 : 数据存储 , 数据库相关 ;


1 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ;



2 . 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ;



① 模式挖掘 : 如 异常模式 , 频繁模式 ;


② 描述建模 : 如 聚类分析 ;


③ 预测建模 : 如 分类预测 , 趋势分析等 ;



3 . 评分函数 :



① 评分函数概念 : 评分函数用于评估 数据集 与 模型 ( 模式 ) 的拟合程度 , 值 越大 ( 越小 ) 越好 ;


② 评分函数作用 : 为 模型 ( 模式 ) 选出最合适的参数值 ;



4 . 搜索和优化算法作用 : 确定 模型 ( 模式 ) 以及其相关的 参数值 , 该模型 ( 模式 ) 使评分函数 达到某个最大 ( 最小 ) 值 ; 本质是帮助评分函数取得 最大 ( 最小 ) 值的方法 ;



① 结构确定求参数 ( 优化问题 ) : 模型 ( 模式 ) 结构确定后 , 目的就是为了确定参数值 , 针对固定的 模式 ( 模型 ) 结构 , 确定一组参数值 , 使评分函数最优 , 这是优化问题 ;


② 结构不确定 ( 搜索问题 ) : 搜索 既需要确定 模型 ( 模式 ) 的结构 , 又需要确定其参数值 , 这种类型是搜索问题 ;



5 . 数据管理策略 : 传统数据与大数据 ;



① 传统数据 ( 内存管理数据 ) : 传统的数据管理方法是将数据都放入内存中 , 少量数据 , 直接在内存中处理 , 不需要特别关注数据管理技术 ;


② 大数据 ( 集群管理数据 ) : 数据挖掘中的数据一般是 GB , TB 甚至 PB 级别的大数据 , 如果使用传统的内存算法处理这些数据 , 性能会很低 ;




二、 Apriori 算法 ( 关联分析算法 )


1 . 数据挖掘任务 : 关联模式挖掘 ;



2 . 模型 ( 模式 ) 结构 : 关联规则 , 类似于键值对结构 , 如购买啤酒的很大几率购买尿布 , 规则如下 : {啤酒} -> {尿布} ;



3 . 搜索空间 : 针对一个 “格” , 这个 “格” 是所有条目的可能组合 ; 如对购买的商品进行关联分析 , 那么搜索空间就是所有的商品 ;



4 . 搜索空间示例 : 有 4 种商品 A , B , C , D , 购买时有可能产生哪些组合呢 :


如果购买 1 个商品 , 有 C(4 , 1) 种组合 ;

如果购买 2 个商品 , 有 C(4 , 2) 种组合 ;

如果购买 3 个商品 , 有 C(4 , 3) 种组合 ;

如果购买 4 个商品 , 有 C(4 , 4) 种组合 ;


搜索空间就是上面的所有可能组合 ; 其中 C(4 , 2) 就是从 4 个元素的集合中任选 2 个的组合 , 参考离散数学的排列组合公式 ;



5 . 搜索空间概念 : 搜索和优化算法的搜索空间 , 如宽度优先遍历图时 , 先要有图的数据结构 , 这个图的数据结构就是搜索空间 ;



6 . 评分函数 : 支持度 , 可信度 ;



7 . 搜索和优化算法 : 宽度优先搜索 ;



8 . 数据管理策略 : 内存中管理数据 ;




三、 K-means 算法 ( 聚类分析算法 )


1 . 数据挖掘任务 : 聚类分析 ;



2 . 模型 ( 模式 ) 结构 : 聚类结果 , 将数据分组 , 若干组数据就是聚类分析的结果 ;



3 . 搜索空间 : 找到中心点 , 其它成员向其靠拢 , 以此为依据分组 ;



4 . 评分函数 : 误差平方和 ;



5 . 搜索优化方法 : 梯度下降方法 ;



6 . 数据管理策略 : 内存管理 ;




四、 ID3 算法 ( 决策树算法 )


1 . 数据挖掘任务 : 分类 ;



2 . 模型 ( 模式 ) 结构 : 决策树 , 树型结构 ;



3 . 搜索空间 : 决策树的所有可能的组合 ;



4 . 评分函数 : 准确率 , 分类结果越准确越好 ; 信息增益 ;



5 . 搜索优化方法 : 贪婪算法 , 确保当前步骤最优 , 但全局不一定最优 ;

6 . 数据管理策略 : 内存管理 ;

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
相关文章
|
14天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
40 10
|
14天前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
39 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
14天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
2020年奇安信秋招算法方向试卷1的题目解析,覆盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、主题模型、采样方法、图像处理等多个领域的知识点。
34 1
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
|
14天前
|
机器学习/深度学习 存储 算法
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
2020年奇安信秋招算法方向试卷3的题目解析,涵盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、PCA、词嵌入库等多个领域的知识点。
26 1
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
|
2天前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
11 2
|
13天前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
41 5
|
14天前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
34 4
|
13天前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
|
13天前
|
算法 数据挖掘 索引
【数据挖掘】2022年2023届秋招Kanaries雾角科技算法岗 笔试题
本文介绍了2022年Kanaries雾角科技算法岗位的笔试题目,涵盖了LeetCode和牛客网的题目,包括字符串处理、几何问题、矩阵操作、数组搜索、二叉树遍历、幂运算及概率计算等多种算法题目,并提供了部分题目的Python代码实现。
24 1
|
14天前
|
机器学习/深度学习 运维 算法
深入探索机器学习中的支持向量机(SVM)算法:原理、应用与Python代码示例全面解析
【8月更文挑战第6天】在机器学习领域,支持向量机(SVM)犹如璀璨明珠。它是一种强大的监督学习算法,在分类、回归及异常检测中表现出色。SVM通过在高维空间寻找最大间隔超平面来分隔不同类别的数据,提升模型泛化能力。为处理非线性问题,引入了核函数将数据映射到高维空间。SVM在文本分类、图像识别等多个领域有广泛应用,展现出高度灵活性和适应性。
67 2

热门文章

最新文章