12.44 分类型数据的定义
设 X={x 1 , x 2 , …, x n } 表示 n 个对象组成的一个数据集,其中 x i =(x i1 , x i2 , …, x im ) 表示由 m 个属性A={a 1 , a 2 , …, a m } 描述的第 i 个对象、x ij (1 ≤ j ≤ m)表示对象 x i 在第 j 个属性上的取值。表示对象集 X 在第 j 个属性上的值域。对于任意的 s V j ,t V j ,如果 s和 t 之间有无穷多个其他取值,则称 V j为数值型数据 (numerical data)、a j 为数值型变量。如果V j 是由有限个符号、字母或数值(通常为整数)组成,则称 V j 为分类型数据 (categorical data) [2,16] , a j 为分类型变量。分类型数据包括名义型数据 (nominaldata) 和序数型数据 (ordinal data)。对于任意的s V j , t V j ,如果有 s = t 或 s ≠ t 两种关系,则称 a j为名义型变量。如果有 s < t、s = t 或 s > t 三种关系,则称 a j 为序数型变量。名义型变量和序数型变量统称为分类型变量。在一个数据集中,如果描述对象的每一个属性都是分类型变量,则称该数据集为分类型数据集、对象为分类型对象。