主成分的推导
利用拉格朗日乘子,可得拉格朗日函数为:
它是a1的二次函数和λ的线性函数,分别对向量a1和λ微分,并令其为0,得:
由前面第一个方程,可得:
因此,λ必须是协差阵∑的一个特征根,而a1则是与此特征根相对应的特征向量。
如果只用第一主成分可能丧失的信息太多,这样往往还需要计算p个原始指标的第二主成分y2。
在计算第二主成分时,除去类似于计算第一主成分的约束条件以外,还必须附上第二主成分与第一主成分不相关这一条件,即还须有约束条件:
即x1,x2,…,xp的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差为∑特征根。
在实际问题中,不同的变量往往有不同的量纲,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的办法。
标准化后的变量的协差阵就是原变量的相关阵,所以标准化原始变量的主成分可以根据相关阵来求出。
假设市场上肉类x1、鸡蛋x2、水果x3三种商品价格的月份资料的协方差矩阵为:
试求三种商品月份价格的所有主成分。
⑴根据上述协方差矩阵,可写出其特征多项式为:
令此特征多项式等于0,则得特征方程,解此特征方程,从而得∑的特征值为:
λ1=10 λ2=λ3=1
⑵将这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述三个特征根的三个单位特征向量分别为:
⑶于是,三种商品价格的三个主成分分别为:
⑷三个主成分的方差分别为:
第一个主成分的方差占了原始指标的总方差的绝大部分,所以第一主成分综合反映了三种商品价格的绝大部分变动。
PS:在实际问题中,不同的变量往往有不同的量纲,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的办法。
标准化后的变量的协差阵就是原变量的相关阵,所以标准化原始变量的主成分可以根据相关阵来求出。