【数据挖掘·简读】02 数据

简介: 【数据挖掘·简读】02 数据

数据集的一般特性

  • 维度:数据集中的对象具有的属性数目。常涉及”维灾难“和”维归约“问题。
  • 稀疏性:非对称特征数据集,一个对象的大部分属性值都为0。只存储与处理非零值。
  • 分辨率 :不同分辨率下数据性质不同。

数据挖掘的任务常假定数据集是记录的汇集,每个记录包含固定的数据字段(属性)集。

记录数据

事务数据:是一种特殊类型的记录数据,其中每个记录(事务)设计一个项的集合。如,一次购物购买的商品的集合构成一个事务。购买的商品是项。

稀疏数据矩阵:稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是重要的。

如文档-词矩阵(document-term matrix),每个词是向量的一个分量(属性),而每个分量的值时对应词在文档中出现的次数。

有序数据

包含:

  • 时序数据
  • 基因组序列数据
  • 温度时间序列数据
  • 空间温度数据

数据质量

主要关注的数据质量问题是检测和纠正(或:数据清理)。会涉及到一些术语:

  • 测量误差:测量过程导致的问题
  • 误差:测量值减去实际值
  • 噪声:测量误差的随机部分,通常用于包含时、空的数据,可使用信号或图像处理技术进行降噪。
  • 鲁棒算法:即使存在噪声也能产生可接受的结果。
  • 伪像:数据确定性 的失真。
  • 精度:重复测量之间的封闭性;
  • 偏倚:测量与被测量之间的系统变量;
  • 准确率:被测量的测量值与实际值之间的接近度;
  • 离群点(异常点):具有不同于数据集中其他大部分数据对象的特征的数据对象或相对于该属性的典型值不寻常的属性值。

数据预处理


相关文章
|
2月前
|
数据采集 算法 数据挖掘
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
147 0
|
2月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
94 0
|
2月前
|
数据可视化 算法 JavaScript
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
128 0
|
2月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
2月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
2月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
2月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
2月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
2月前
|
SQL 机器学习/深度学习 数据挖掘
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林
数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林