【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )

文章目录

一、 数据挖掘算法组件化

二、 组件一 : 模型或模式结构

三、 组件二 : 数据挖掘任务

四、 组件三 : 评分函数

五、 组件四 : 搜索和优化算法

六、 组件五 : 数据管理策略

七、 数据挖掘算法 组件化思想应用



一、 数据挖掘算法组件化


1 . 数据挖掘算法现状 : 目前数据挖掘领域算法很多 , 并且每年都会有有大量算法提出 ;



2 . 数据挖掘算法本质 : 但其本质都是类似的 , 新推出算法在原来的算法的基础上进行优化改进 , 形成了目前的大量算法种类 ;



3 . 组件化学习应用 : 通过组件化思想来理解数据挖掘算法 , 将算法模块化 , 不同模块的排列组合就形成了不同种类的算法 , 因此核心就是学习这些算法的模块组件 ;



① 组件原理 : 每种组件的原理基本相同 , 掌握一种组件原理后 , 学习另一种组件就比较轻松 ;


② 组件角度 : 从组件角度对比不同的算法 , 更容易看出算法之间的差异 ;



4 . 数据挖掘算法的五个标准组件 :


① 模型或模式结构 : 决策树模型 , ( 信念 ) 贝叶斯模型 , 神经网络模型 等 ;

② 数据挖掘任务 : 概念描述 , 关联分析 , 分类 , 聚类 , 异常检测 , 趋势分析 等 ;

③ 评分函数 : 误差平方和 , 最大似然 , 准确率 等 ;

④ 搜索和优化方法 : 随机梯度下降 ;

⑤ 数据管理策略 : 数据存储 , 数据库相关 ;



二、 组件一 : 模型或模式结构


1 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ;



2 . 模型 或 模式 表达 : 模型或模式表达方式各种各样 , 如公式 , 数据等 ;



① 线性回归模型 : 是一个数学公式 y = a x + b y = ax + by=ax+b ;


② 层次聚类模型 : 是一个树状结构的数据 ;



3 . 模型 ( 全局 ) :



① 模型概念 : 模型是在 全局层次 对 整个数据集 的 描述或总结 ;


② 模型适用范围 : 模型适用于数据集中的所有对象 ;


③ 抽象描述 : 模型本质是对现实世界进行的抽象描述 ;


④ 模型举例 : 数学公式 y = a x + b y = ax + by=ax+b , 只要给出 x xx 值 , 就必定有一个 y yy 值与之对应 , 没有特例 , 所有的 x xx 都适用于该模型 ;



4 . 模式 ( 局部 ) :



① 模式概念 : 模式是在 局部范围 对 部分数据 的 描述 ;


② 模式适用范围 : 局部适用 , 仅对小部分数据描述有效 ;


③ 模式内容 : 模式中只能描述部分对象 , 或对象的部分属性 , 并不能描述全部对象 以及 全部属性 ;


④ 模式举例 : 部分关联 , 如部分顾客购买啤酒时 , 也买了尿布 , 该信息局部有效 , 并没有对全局数据进行总结 ;



5 . 模型 与 模式 联系 : 全局的模型 和 局部的模式 是相互联系的 ; 模型与模式联系的示例 , 如下异常检测示例 :



① 需求 : 异常检测中 , 想要检测出 异常数据 , 就必须先知道 什么是正常数据 ;


② 描述 : 这里的对正常数据的描述就是 全局模型 , 异常数据描述 就是 局部模式 ;



6 . 模型 和 模式 参数 : 模型 , 模式 都与参数相关 ,



① 模型参数 : 如 数学公式 y = a x + b y = ax + by=ax+b 中 , a aa 和 b bb 就是模型的参数 ;


② 模式参数 : 如 : 如果 x > a x > ax>a , 则 y > b y>by>b 的概率是 c cc , 其中 a , b , c a, b, ca,b,c 就是模式的参数 ;



7 . 不确定的模型 ( 模式 ) : 不确定的模式 或 模式 叫 结构 ;



① 模型结构 : 参数不确定的模型是模型结构 ;


② 模式结构 : 参数不确定的模式是模式结构 ;



8 . 拟合的模型 ( 模式 ) :



① 参数确定 : 如果 模型 或 模式 参数确定 , 那么该模型称为 已经拟合的模型 ( 模式 ) , 可以简称为 模型 ( 模式 ) ;


② 总结 : 不确定的模型叫做 模型结构 , 确定的 模型 或 模式 直接称为 模型 ( 模式 ) ;




三、 组件二 : 数据挖掘任务


1 . 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ;



① 模式挖掘 : 如 异常模式 , 频繁模式 ;


② 描述建模 : 如 聚类分析 ;


③ 预测建模 : 如 分类预测 , 趋势分析等 ;



2 . 模型挖掘与模式挖掘 : 描述建模 和 预测建模 可以看做是 模型挖掘 , 与 模式挖掘 对应 ;



3 . 模式挖掘 : 从数据集中寻找特定的模式 , 如 异常模式 . 频繁模式 等类型的模式 ;



4 . 频繁模式 : 在某个数据集中 , 频繁出现的模式 ;



① 模式类型 : 某个数据 , 子数据集 , 项集 , 子序列 , 子图 等结构 ;


② 频繁的项集 : 如交易数据中 , 啤酒和尿布经常出现在一起 , 牛奶和面包经常出现在一起 , 称为频繁项集 ;


③ 频繁的子序列 : 消费者购买电脑后会购买打印机 , 然后购买打印纸 , 电脑 打印机 打印纸 就是频繁子序列 ;


④ 频繁的子结构 : 在图结构数据中频繁出现子图 , 树结构数据中频繁出现子树 , 被称为频繁子树 ;



5 . 预测建模 : 先根据现有数据建立模型 , 然后根据该模型预测未来的数据 ; ( 先建模 , 再预测 )



① 分类 : 被预测的数据类型是 范畴型的 , 数据种类有限 ; 如 : 结果 好 , 坏 两种 ; 病情 : 良好 , 恢复 , 恶化 三种 ;


② 回归 : 被预测的数据类型是 数值型的 , 如 电影票房 , 国家 GDP , 是一个数值型的 ;



6 . 分类模型 与 回归模型 :



① 分类模型 : 又叫 分类函数 , 分类器 ;


② 分类模型应用 : 信用等级评价 , 治疗疾病的诊断 等 ;


③ 有监督学习 : 分类过程中 , 使用了训练集进行训练学习 , 这是一个有监督的学习过程 ;


④ 回归模型 : 一般用于 性能评估 , 概率评估 等领域 ;



7 . 描述建模 : 描述数据的全局性特征 ;



① 描述建模 与 预测建模区别 : 变量个数不同 , 预测建模预测的变量是 1 个 , 如个人信用等级 , 疾病病情等级 等 ; 描述建模描述多个变量 ;


② 描述建模示例 : 聚类分析 ;



8 . 分类 与 聚类 对比 :



① 分类 : 数据有 n 个变量 , 已知 n - 1 个变量 ; 目标是预测未知的那个变量的值 ; 预测建模的本质是找到 n - 1 个变量 与 最后一个变量的模型 ; 根据一条数据的 n - 1 个变量 , 得出其最后一个变量值 ;


② 聚类 : 数据有 n 个变量 , 所有的变量都是已知的 ; 如果某几个数据的某几个变量相似 , 那么将这几个数据分成一组 , 目标是分组 ; 根据多条数据的 n 个变量 , 将多条数据进行分组 ;




四、 组件三 : 评分函数


1 . 参数不确定 : 参数不确定的 模型 ( 模式 ) 叫做 模型 ( 模式 ) 的结构 , 即知道结构 , 但不知道具体的 模型 ( 模式 ) ;



2 . 结构拟合数据 : 知道 模型 ( 模式 ) 结构后 , 需要进一步确定结构中的参数值 , 依据就是现有的数据集 , 这个过程就是将结构拟合到数据 ;



3 . 评分函数引入 : 如模型结构 y = a x + b y = ax + by=ax+b 中 , a aa 和 b bb 是模型的参数 , 其取值范围是 ( − ∞ , + ∞ ) (-\infty , +\infty)(−∞,+∞) , 如何评价参数值选取的是否合适 , 需要给出评价标准 , 这个评价标准就是评分函数 ;



4 . 评分函数 :



① 评分函数概念 : 评分函数用于评估 数据集 与 模型 ( 模式 ) 的拟合程度 , 值 越大 ( 越小 ) 越好 ;


② 评分函数作用 : 为 模型 ( 模式 ) 选出最合适的参数值 ;


③ 常用的评分函数 : 似然函数 , 误差平方和 , 准确率 , 支持度 , 可信度 等 ;


④ 误差平方和示例 : 模型结构 y = a x + b y = ax + by=ax+b , 使用模型预测出的 y yy 值为 y ′ y'y

 , 真实的值为 y yy , 计算出 单条数据的 误差平方 ( y − y ′ ) 2 (y - y')^2(y−y

)

2

 , 将所有数据的 误差平方 相加 , 就是误差平方和 ; 这个值越小越好 ;



5 . 评分函数要求 :



① 拟合 : 为 模型 ( 模式 ) 选择的评分函数 , 能很好的拟合当前已知的数据集 ;


② 避免过拟合 : 评分函数要避免过拟合 , 对极端数据过于敏感 , 这是没有必要的 ; 如出现极端数据 , 模型剧烈变化 , 模型需要的是稳定 ;


③ 模型简洁 : 拟合后的模型尽量简洁 ;



6 . 模型 ( 模式 ) 的特点 :



① 模型 ( 模式 ) 近似性 : 不存在绝对正确的 模型 ( 模式 ) , 所有的 模型 ( 模式 ) 要求近似即可 ;


② 模型 ( 模式 ) 稳定性 : 模型 ( 模式 ) 不随着数据变化而变化 ; 如出现极端数据 , 模型剧烈变化 ; 模型 ( 模式 ) 要做到对数据的微笑变化不敏感 ;




五、 组件四 : 搜索和优化算法


1 . 评分函数作用 : 衡量 模型 ( 模式 ) 与已知数据集的 拟合程度 ;



2 . 搜索和优化算法作用 : 确定 模型 ( 模式 ) 以及其相关的 参数值 , 该模型 ( 模式 ) 使评分函数 达到某个最大 ( 最小 ) 值 ; 本质是帮助评分函数取得 最大 ( 最小 ) 值的方法 ;



3 . 搜索问题 和 优化问题 :



① 结构确定求参数 ( 优化问题 ) : 模型 ( 模式 ) 结构确定后 , 目的就是为了确定参数值 , 针对固定的 模式 ( 模型 ) 结构 , 确定一组参数值 , 使评分函数最优 , 这是优化问题 ;


② 结构不确定 ( 搜索问题 ) : 搜索 既需要确定 模型 ( 模式 ) 的结构 , 又需要确定其参数值 , 这种类型是搜索问题 ;


③ 搜索和优化对比 : 模型 ( 模式 ) 结构确定 , 获取其最优参数是优化问题 ; 模型 ( 模式 ) 结构不确定 , 是搜索问题 ;



4 . 常用的优化和搜索方法 :



① 优化方法 : 爬山算法 , 最陡峭下降 , 期望最大化方法 , 随机梯度下降 ;


② 搜索方法 : 贪婪搜索 , 分支界定法 , 宽度 / 深度 优先遍历方法 ; 其中贪婪搜索方法每一步都是当前最优结果 , 全局不一定是最优的 ;




六、 组件五 : 数据管理策略


1 . 传统数据与大数据 :



① 传统数据 : 传统的数据管理方法是将数据都放入内存中 , 少量数据 , 直接在内存中处理 , 不需要特别关注数据管理技术 ;


② 大数据 : 数据挖掘中的数据一般是 GB , TB 甚至 PB 级别的大数据 , 如果使用传统的内存算法处理这些数据 , 性能会很低 ;



2 . 海量数据管理 : 目的是提高数据挖掘算法的性能 , 减少数据的访问次数 , 通过采样 , 近似 , 索引 , 组织管理数据 ;




七、 数据挖掘算法 组件化思想应用


1. 算法核心体现 : 将数据挖掘算法分解成一个个核心的组件 , 这些组件是算法核心机制的体现 ;



2 . 组件化应用 : 当面对新需求时 , 不需要整体照搬某个现成的算法 , 应该根据需求 , 选择不同的组件 , 组成新算法解决当前的数据挖掘问题 ;


举例 : 如当前的需求 , 模型结构采用哪个类型 , 评分函数使用哪个 , 搜索优化方法选取 等 , 拼接组装成一个新的数据挖掘算法 ;



3 . 人和计算机分工 :



① 人工工作 : 模型 ( 模式 ) 结构 和 评分函数 , 一般是开发者来确定 ;


② 计算机工作 : 搜索和优化评分函数过程 , 由计算机实现 ;



4 . 算法侧重方向 ( 完备性 / 计算效率 ) :



① 小数据 : 数据集比较小 , 侧重于 模型 ( 模式 ) 的能力 , 如描述 , 预测 的准确性 ;


② 大数据 : 侧重于计算的效率 , 需要在 模型 ( 模式 ) 的能力 和 计算效率之间找平衡点 , 如 算法预测明天的股票预测的很准确 , 但是要运行好几年 , 没有任何意义 ;



相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
相关文章
|
5天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
21 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
5天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
25 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
16天前
|
机器学习/深度学习 人工智能 算法
青否数字人声音克隆算法升级,16个超真实直播声音模型免费送!
青否数字人的声音克隆算法全面升级,能够完美克隆真人的音调、语速、情感和呼吸。提供16种超真实的直播声音模型,支持3大AI直播类型和6大核心AIGC技术,60秒快速开播,助力商家轻松赚钱。AI讲品、互动和售卖功能强大,支持多平台直播,确保每场直播话术不重复,智能互动和真实感十足。新手小白也能轻松上手,有效规避违规风险。
|
18天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
22天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
3月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
106 1
|
4月前
|
SQL NoSQL 数据管理
数据管理DMS使用问题之如何批量导入MongoDB的数据文件
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
16天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
30天前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
137 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
1月前
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。

热门文章

最新文章