PCA白化
前置知识
回顾PCA
PCA是在对观测数据进行基变换,新的坐标系使各数据维度线性无关,坐标系的重要程度从大到小衰减。
求解过程:
- 数据标准化(以远点为坐标原点)
- 求协方差矩阵
- 对协方差矩阵特征值分解找到最大方差的方向
- 对数据基变换
其中特征向量,就是最大方差方向,每个特征向量对应的特征值就是这个数据维度的方差。
PCA白化
PCA白化实际上就是在数据通过PCA进行基变换后再把数据进行标准化,让数据每个维度的方差全部为1。
公式推导如下:
符号定义:X:原始数据矩阵 M:原始数据协方差矩阵 设$S^{1/2}$为白化矩阵
对M特征值分解:
U就是我们要找的变换矩阵,转换数据基坐标:
$$X_{PCA}=UX$$
然后进行白化操作:
lambda为特征值
其中有的特征值很小,会造成数值溢出,就给它加上了1个常数项,于是把白化矩阵改为: