数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。
首先介绍两种常见的基本类型:数值型 和 分类型
数值型值包括实型变量和整型变量如年龄,速度或长度。
数值型特征有两个重要的属性:其值有顺序关系和距离关系。
与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.
具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。
另一种基于变量值的变量分类方法是,根据它是连续型