数据挖掘——数据挖掘过程

简介: 数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程 数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。

3cd99bf2b2f847e0e48efa50e404f90b4977916f

数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程


数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。


这个过程可能循环许多次。


适合数据挖掘的一般实验性程序包括一下步骤:



  1.陈述问题,阐明假设 

    在这一步中,建模人员通常会为未知的相关性制定一组变量,如有可能,还会指定此相关性的一个大体形式作为初始假设。在这个阶段,可能会给一个问题提出几个假设。这一步要求将应用领域的专门技术和数据挖掘模型相结合。


  2.收集数据

   这一步考虑数据是怎样产生和收集的。通常有两种截然不同的可能性。第一种是数据产生过程中在专家(建模者)的控制下:这称为“有计划的实验”。第二种情况是专家不能影响数据产生过程:这称为“观察法”。在大多数数据挖掘应用中都采用了观察法,即数据是随机产生的。

   

  理解数据搜集如何影响其理论分布是相当重要的,而且还要确保用于评估模型的数据与后面用于检验和应用于模型的数据都来自同一个位置的取样分布


  3.预处理数据

   在观察法中,数据常常采集于已有的数据库,数据仓库和数据集市。数据预处理通知至少包含两个常见的任务:

   1. 异常点的监测(和去除) 对异常点有两种处理方法:a. 检测并最终去除异常点,作为预处理阶段的一部分。b. 开发不受异常点影响的健壮性建模方法。

   2. 比例缩放,编码和选择特征

 

 备注:考虑数据预处理步骤时,不应完全独立于数据挖掘的其他阶段。在数据挖掘过程么次迭代中,所有活动都能为后面的迭代定义改进的新数据集。通常,以专有于某个应用的比例缩放和编码形式来合并先验知识,优秀的预处理方法能为数据挖掘技术提供最佳的陈述。

  

  4.模型评估

  选择并实现合适的数据挖掘技术是这一阶段的主要任务。


  5.解析模型,得出结论

   大多数情况下,数据挖掘模型应该有助于决策。因此,这种模型必须是可解释的才能有用。现代的数据挖掘方法寄望于使用高纬度的模型来获得高精度的结果



目录
相关文章
|
5月前
|
机器学习/深度学习 数据采集 算法
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
323 12
|
5月前
|
存储 数据采集 安全
数据治理:别让你的数据成为“垃圾堆”!
数据治理:别让你的数据成为“垃圾堆”!
127 3
|
C# 容器
C#中的命名空间与程序集管理
在C#编程中,`命名空间`和`程序集`是组织代码的关键概念,有助于提高代码的可维护性和复用性。本文从基础入手,详细解释了命名空间的逻辑组织方式及其基本语法,展示了如何使用`using`指令访问其他命名空间中的类型,并提供了常见问题的解决方案。接着介绍了程序集这一.NET框架的基本单位,包括其创建、引用及高级特性如强名称和延迟加载等。通过具体示例,展示了如何创建和使用自定义程序集,并提出了针对版本不匹配和性能问题的有效策略。理解并善用这些概念,能显著提升开发效率和代码质量。
434 4
|
算法 大数据 网络安全
FP-Growth算法
FP-Growth算法
492 2
|
Dart
Flutter笔记:手动配置VSCode中Dart代码自动格式化
Flutter笔记:手动配置VSCode中Dart代码自动格式化
1422 5
|
存储 关系型数据库 MySQL
MySQL隔离级别:提高数据库性能与数据安全的必备技能!
MySQL隔离级别:提高数据库性能与数据安全的必备技能!
628 0
|
关系型数据库 MySQL
MySQL union和union all的用法详解和区别
MySQL union和union all的用法详解和区别
1545 0
|
存储 算法 数据挖掘
FP-Growth算法全解析:理论基础与实战指导
FP-Growth算法全解析:理论基础与实战指导
706 0
|
设计模式 前端开发 数据可视化
设计模式-mvc模式
什么是MVC模式 MVC是模型(model)、视图(view)、控制(controller)这三个单词上的首字母组成。它是一种目前广泛流行的应用模型,它的目的是实现Web系统的职能分工。
|
移动开发 运维 数据可视化
低代码开发平台魔笔 X 浙江广电集团:“10天”成为行业最小创新单位!
浙江广播电视集团因集团业务拓展,需快速上线新媒资平台来支撑新业务。在上线时间紧迫,10人10天的巨大考验下,浙江台选择与低代码开发平台魔笔合作。10天时间,魔笔充分展示了低代码平台的低成本高效率,成功完成系统上线,实现研发提效5~10倍。从此,“10天”成为了行业最小创新单位!
2235 0