数据挖掘——数据挖掘过程

简介: 数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程 数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。

3cd99bf2b2f847e0e48efa50e404f90b4977916f

数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程


数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。


这个过程可能循环许多次。


适合数据挖掘的一般实验性程序包括一下步骤:



  1.陈述问题,阐明假设 

    在这一步中,建模人员通常会为未知的相关性制定一组变量,如有可能,还会指定此相关性的一个大体形式作为初始假设。在这个阶段,可能会给一个问题提出几个假设。这一步要求将应用领域的专门技术和数据挖掘模型相结合。


  2.收集数据

   这一步考虑数据是怎样产生和收集的。通常有两种截然不同的可能性。第一种是数据产生过程中在专家(建模者)的控制下:这称为“有计划的实验”。第二种情况是专家不能影响数据产生过程:这称为“观察法”。在大多数数据挖掘应用中都采用了观察法,即数据是随机产生的。

   

  理解数据搜集如何影响其理论分布是相当重要的,而且还要确保用于评估模型的数据与后面用于检验和应用于模型的数据都来自同一个位置的取样分布


  3.预处理数据

   在观察法中,数据常常采集于已有的数据库,数据仓库和数据集市。数据预处理通知至少包含两个常见的任务:

   1. 异常点的监测(和去除) 对异常点有两种处理方法:a. 检测并最终去除异常点,作为预处理阶段的一部分。b. 开发不受异常点影响的健壮性建模方法。

   2. 比例缩放,编码和选择特征

 

 备注:考虑数据预处理步骤时,不应完全独立于数据挖掘的其他阶段。在数据挖掘过程么次迭代中,所有活动都能为后面的迭代定义改进的新数据集。通常,以专有于某个应用的比例缩放和编码形式来合并先验知识,优秀的预处理方法能为数据挖掘技术提供最佳的陈述。

  

  4.模型评估

  选择并实现合适的数据挖掘技术是这一阶段的主要任务。


  5.解析模型,得出结论

   大多数情况下,数据挖掘模型应该有助于决策。因此,这种模型必须是可解释的才能有用。现代的数据挖掘方法寄望于使用高纬度的模型来获得高精度的结果



目录
相关文章
|
3月前
|
算法 搜索推荐 数据挖掘
通过案例理解数据挖掘
通过案例理解数据挖掘
73 2
|
机器学习/深度学习 数据采集 算法
数据挖掘-到底在解决什么问题(一)
数据挖掘-到底在解决什么问题(一)
132 0
数据挖掘-到底在解决什么问题(一)
|
数据挖掘 Go 数据库
数据分析与数据挖掘研究之一 (下)
数据分析与数据挖掘研究之一
数据分析与数据挖掘研究之一 (下)
|
数据挖掘 数据库 Perl
数据分析与数据挖掘研究之一 (上)
之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。
数据分析与数据挖掘研究之一 (上)
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
141 0
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
|
机器学习/深度学习 自然语言处理 算法
数据挖掘
简单介绍数据挖掘的概念以及常见的流程
|
存储 机器学习/深度学习 SQL
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
173 0
|
机器学习/深度学习 人工智能 运维
【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
742 0
|
机器学习/深度学习 算法 数据可视化
数据挖掘(二)
7.预测模型 预测模型检验并识别现有数据中的模式,以预测未来的结果。构建预测模型包括应用统计技术来获取和显示公开数据中所包含的信息。 图2.6预测模型 决策树 决策树是最通用的建模技术之一。该模型可以单独用于预测,也可以用作开发其他预测模型建模技术。
|
数据采集 存储 机器学习/深度学习
数据挖掘(一)
1.简介 大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅使用传统决策技术来盈利变成不可能。这些传统方法主要使用电子表格,数据库查询和其它商业智能工具。另外,人们对从大数据中提取的有用信息和知识方法越来越感兴趣,这使得决策风格从基于经验直觉逐渐转变成数据驱动。