数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程
数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。
这个过程可能循环许多次。
适合数据挖掘的一般实验性程序包括一下步骤:
1.陈述问题,阐明假设
在这一步中,建模人员通常会为未知的相关性制定一组变量,如有可能,还会指定此相关性的一个大体形式作为初始假设。在这个阶段,可能会给一个问题提出几个假设。这一步要求将应用领域的专门技术和数据挖掘模型相结合。
2.收集数据
这一步考虑数据是怎样产生和收集的。通常有两种截然不同的可能性。第一种是数据产生过程中在专家(建模者)的控制下:这称为“有计划的实验”。第二种情况是专家不能影响数据产生过程:这称为“观察法”。在大多数数据挖掘应用中都采用了观察法,即数据是随机产生的。
理解数据搜集如何影响其理论分布是相当重要的,而且还要确保用于评估模型的数据与后面用于检验和应用于模型的数据都来自同一个位置的取样分布
3.预处理数据
在观察法中,数据常常采集于已有的数据库,数据仓库和数据集市。数据预处理通知至少包含两个常见的任务:
1. 异常点的监测(和去除) 对异常点有两种处理方法:a. 检测并最终去除异常点,作为预处理阶段的一部分。b. 开发不受异常点影响的健壮性建模方法。
2. 比例缩放,编码和选择特征
备注:考虑数据预处理步骤时,不应完全独立于数据挖掘的其他阶段。在数据挖掘过程么次迭代中,所有活动都能为后面的迭代定义改进的新数据集。通常,以专有于某个应用的比例缩放和编码形式来合并先验知识,优秀的预处理方法能为数据挖掘技术提供最佳的陈述。
4.模型评估
选择并实现合适的数据挖掘技术是这一阶段的主要任务。
5.解析模型,得出结论
大多数情况下,数据挖掘模型应该有助于决策。因此,这种模型必须是可解释的才能有用。现代的数据挖掘方法寄望于使用高纬度的模型来获得高精度的结果