【数据挖掘导论】书籍小册(一)绪论

简介: 【数据挖掘导论】书籍小册(一)绪论

数据挖掘导论

一、绪论

  • 数据仓库:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策分析。
  • 数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程。如图:图片.png
  • 数据预处理:包括清洗数据以便消除噪声和重复的观测值,以及选择与当前数据挖掘任务相关的记录和特征。它是整个知识发现过程中最费力、最耗时的步骤。
  • 后处理:将有效和有用的结果集放到决策支持系统(DSS)中。可视化可以帮助数据分析者从不同角度探查数据和数据挖掘的结果。

数据仓库和数据挖掘的结合为决策支持系统开辟了新方向,他们是商业智能的主要组成部分。

传统的数据分析中遇到的困难

  • 算法可伸缩性。如在处理不同数据集中,其结构之间的差异,需要实现新的数据结构。
  • 数据集维度高。随着维度(特征数)增加,计算复杂性增加。
  • 异构数据、复杂数据多样。如半结构化的文本。
  • 数据多分布。如要获取的数据集分布在不同的位置与不同的机构。
  • 产生假设和评估假设。需要设计和评估的假设千变万化,如何自动进行。

数据挖掘的任务

1、预测任务

根据某些属性的值,预测特定的属性值。将被预测的属性称为目标变量,将用于预测的属性称为说明变量。

2、描述任务

概括数据中潜在的联系模式。如,聚类、趋势、相关、异常、轨迹。

除此之外,还有聚类分析、预测建模、关联分析、异常检测四种主要的数据挖掘任务。

预测建模:将说明变量以函数方式进行建模。

预测建模的任务有2类:分类和回归。

分类:预测离散的目标变量;如,预测一个用户是否会在网上买书。该目标变量是一个二值。

回归:预测连续的目标变量;如,预测某股票的未来价格。该目标变量(价格)是个连续属性。

但是,无论哪个任务,它们的任务都是训练一个模型,让目标变量的预测值与实际值之间的误差达到最小。

相关应用:预测顾客对产品促销活动的反应;根据检查结果判断病人是否患有某种疾病;等等。

关联分析:发现描述数据中强关联特征的模式。目标是以有效的方式提取最有趣的模式。

相关应用:识别用户一起访问的网页;找出具有相关功能的基因组;等等。

聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比较起来,属于同一簇的观测值相互之间尽可能类似。

相关应用:对相关顾客分组;等等。

异常检测:识别其特征显著不同于其他数据的观测值(异常点/离群点)。目标是发现真正的异常点,避免错误地将正常的对象标注为异常点。

相关应用:检测欺诈;网络攻击;等等。



相关文章
|
机器学习/深度学习 人工智能 算法
04 机器学习 - 数据挖掘与机器学习导论
04 机器学习 - 数据挖掘与机器学习导论
155 0
|
机器学习/深度学习 数据采集 存储
数据挖掘2.1——绪论 知识点整理
数据挖掘2.1——绪论 知识点整理
110 0
|
机器学习/深度学习 数据采集 算法
数据挖掘导论——综合实验(下)
数据挖掘导论——综合实验
198 0
数据挖掘导论——综合实验(下)
|
机器学习/深度学习 数据可视化 数据挖掘
数据挖掘导论——综合实验(上)
数据挖掘导论——综合实验
149 0
数据挖掘导论——综合实验(上)
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘导论——分类与预测(三)
数据挖掘导论——分类与预测
262 0
数据挖掘导论——分类与预测(三)
|
数据挖掘
数据挖掘导论——分类与预测(二)
数据挖掘导论——分类与预测
265 0
数据挖掘导论——分类与预测(二)
|
数据挖掘
数据挖掘导论——分类与预测(一)
数据挖掘导论——分类与预测
278 0
数据挖掘导论——分类与预测(一)
|
数据可视化 数据挖掘 Linux
数据挖掘导论——可视化分析实验
数据挖掘导论——可视化分析实验
161 0
数据挖掘导论——可视化分析实验
|
数据挖掘 数据安全/隐私保护 索引
数据挖掘导论——Python练习
数据挖掘导论——Python练习
298 0
数据挖掘导论——Python练习

热门文章

最新文章