数据挖掘之数据准备——原始数据的描述

简介: 数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。

c58849470f8a8b8279e19dec5220e839f0b64e15

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。


首先介绍两种常见的基本类型:数值型 和 分类型


数值型值包括实型变量和整型变量如年龄,速度或长度。


数值型特征有两个重要的属性:其值有顺序关系和距离关系。


与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.

具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。


另一种基于变量值的变量分类方法是,根据它是连续型变量还是离散型变量来分类。


连续型变量也称为定量型或度量型变量,可以使用间隔尺度比例尺度来衡量。这两种尺度都允许在理论上无限精密地定义或者度量变量。而这两种尺度的区别在于它们定义零点方式。在间隔尺度中,零点的位置是任意的,因此,零点并不代表被测变量没有值。间隔尺度最佳的例子是温度尺度。


相反,比例尺度有绝对的零点。所有用这种尺度测量变量之间存在真实的比例关系。


在大型数据集中,连续型变量用实例或者整型值来表示。


离散型变量也叫做定性型变量,这种变量用两种非度量的尺度——名义尺度或有序尺度——来衡量或定义它的值。


名义尺度是无序的,它使用不同的符号,字符和数字来表示被测量变量的不同状态。名义尺度的一个例子是通用的顾客类型的标识符。


有序尺度包括规则的,离散的顺序,例如排名。有序变量是定义了顺序关系而没有定义距离关系的分类型变量。有序属性的例子有学生在班上的排名以及体育竞赛中的金牌,银牌和铜牌。有序尺度未必是线性的。在有序尺度中,有序属性只有大于,等于或小于关系。一般情况下顺序变量可以把数值型变量编码成为和有序变量值相对应的小交集。


一种特殊的离散型变量是周期变量,周期变量的特征是存在距离关系,而不存在顺序关系,如星期,月或日。


最后另一种数据分类纬度是基于数据与时间有关的行为特性。一些数据不随时间的变化而变化,它们成为静态数据。另一方面,也有随时间变化而变化的属性值叫做动态数据或者时间数据。


大多数数据挖掘方法更适合于静态数据,挖掘动态数据时,常常需要特殊的考虑和预处理。


产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征,此外,这些样本往往是高纬度的。这就意味者它们有极多的可测量特征。大数据集中这些多余的纬度产生了数据挖掘术语中所谓的“维数灾”。它是由高纬空间几何学产生的。


高纬度空间特性常常是违反直觉的。因为我们所在的世界是一个低纬度空间如二维空间或者三维空间。


高纬数据的4个重要属性会影响输入数据和数据挖掘结果的解释。

  1、若数据集在n纬度空间中生成密度相同密度的数据点,则该数据集的大小随维数呈指数增长。

  

  2、在高维空间中,需要更大的半径才能放入一小部分数据点。对给定的子样本,可以用公式e(p) = p的d分之一次幂  测定超立方体边长e,其中,p是预先指定的字样本,d是维数。

      通过上述公式表明,即使想获取数据的一小部分,也需要非常大的领域。

 3、在高纬度空间中,几乎每个点都比其他样本点更接近某一边界。在d维空间中,对大小维n的样本来讲,数据点之间的期望值距离D为:

          D(d,n) = 1/2((1/n)的d分之一次幂)


 4、几乎每个点都是异常点,当输入空间的纬度增加时,预测点到分类点中心的距离也在增加。每个新样本的预测点都像是初始分类数据的异常点。


数据集的维数增加时,数据将越来越稀疏,在这些数据所在的空间中,他们大都是异常点。因此必须重新考虑,重新评估统计学中的传统概念:距离,相似度,数据分布,均值,标准差等






目录
相关文章
|
13天前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
30 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
12天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
23 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
13天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
32 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
3月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

热门文章

最新文章