归一化,也即数据标准化。是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种归一化方法:
一、min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。归一化映射如下:
f:x→y=x−xminxmax−xmin
二. 向量求模标准化
如 a⃗ =(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742,则a⃗ new=(13.742,23.742,33.742).