【ML】matlab和python实现PCA降维算法

简介: matlab和python实现PCA降维算法
概述

降维是机器学习中十分重要的一种思想。在机器学习中,我们会经常处理一些高维数据,而高维数据情形下,会出现距离计算困难数据样本稀疏等问题。这类问题是所有机器学习方法共同面临的问题,我们也称之为“维度灾难”。在高维特征中,也容易出现特征之间存在线性相关,也就是说有的特征是冗余的,因此降维也是必要的。

降维的优点(必要性):

  1. 去除噪声
  2. 降低算法的计算开销(改善模型的性能)
  3. 使得数据更容易使用
  4. 使得数据更容易理解(几百个维度难以理解,几个维度可视化易理解)

降维的方法有很多,主要分为两大类:
线性降维:PCA,LDA,SVD等
非线性降维:核方法(核+线性),二维化和张量化(二维+线性),流形学习(ISOMap,LLE,LPP)等

下面我们主要学习一下PCA降维算法。

1. 什么是降维?

降维,简单来说就是尽量保证数据本质的前提下将数据维数降低。降维可以理解为一种映射关系,例如函数z = f(x,y),可以二维转为一维。

2.什么是PCA?

PCA:principal component analysis,主成分分析,
是一种广泛用于数据压缩的算法(常用的降维技术)。PCA的思想是将n维特征映射到k维,这k维特征是全新的正交特征。这k维特征称为主元,是重新构造出来的特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身决定。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的k个坐标轴,从而构造出k个特征。

3.PCA的操作步骤
(1)去平均值,即每一维特征减去各自的平均值
(2)计算协方差矩阵
(3)计算协方差矩阵的特征值与特征向量
(4)对特征值从大到小排序
(5)保留最大的k个特征向量
(6)将数据转换到k个特征向量构建的新空间中

具体实例:
(我们先用矩阵利器matlab工具做)
我们现在有二维数组:==dataSet==,10行2列
在这里插入图片描述
这个数据我们可以自己做,手动输入到txt文档里就可以了。
10行2列的数据,求每一维(每一列的数据均值):==dataSetMean==,1行2列
在这里插入图片描述
然后,原始数据每一维上的数据减去各自的均值得到==dataSetAdjust==,10行2列
在这里插入图片描述
计算dataSetAdjust的协方差矩阵(怎么计算一个矩阵的协方差矩阵?请点这里),得到==dataCov==,2行2列
在这里插入图片描述
求协方差矩阵的特征值和特征向量(怎么计算特征值和特征向量?清点这里):
特征值:D
在这里插入图片描述
特征向量:V
在这里插入图片描述
接着,对特征值进行排序,2维降1维,显然1.4214>0.1120
我们选择第二个特征值对应的特征向量:V_
在这里插入图片描述
转换到新的空间得到降维后的数据:==FinalData==,10行1列
dataSetAdjust * V_ ,
在这里插入图片描述
这样,我们就完成了,将10 × 2降维到10 × 1(2维降到1维)。
pca_SampleData_matlab.m

clc;clear
%% 导入数据
dataSet = load('data/SampleData.txt');

% pca
k = 1; % 目标维数
[FinalData, reconData] = PCA(dataSet, k);

%% 作图
hold on
plot(dataSet(:,1), dataSet(:,2), '.');
plot(reconData(:,1), reconData(:,2), '.r');
hold off

PCA.m

function [ FinalData,reconData ] = PCA( dataSet, k )
    [m,n] = size(dataSet);

   %% 去除平均值
    %取平均值
    dataSetMean = mean(dataSet);
    %减去平均值
    dataSetAdjust = zeros(m,n);
    for i = 1 : m
        dataSetAdjust(i , :) = dataSet(i , :) - dataSetMean;
    end

    %% 计算协方差矩阵
    dataCov = cov(dataSetAdjust);

    %% 计算协方差矩阵的特征值与特征向量
    [V, D] = eig(dataCov);
    
    % 将特征值矩阵转换成向量
    d = zeros(1, n);
    for i = 1:n
        d(1,i) = D(i,i);
    end
    
    %% 对特征值排序
    [maxD, index] = sort(d);
    
    %% 选取前k个最大的特征值
    % maxD_k = maxD(1, (n-k+1):n);
    index_k = index(1, (n-k+1):n);
    % 对应的特征向量
    V_k = zeros(n,k);
    for i = 1:k
        V_k(:,i) = V(:,index_k(1,i));
    end
    
    %% 转换到新的空间
    FinalData = dataSetAdjust*V_k;
    
    % 在原图中找到这些点, 数据还原
    reconData = FinalData * V_k';
    for i = 1 : m
        reconData(i , :) = reconData(i , :) + dataSetMean;
    end
end

(我们用python做)
python3代码实现:

# -*- coding: utf-8 -*-

import numpy as np

#计算均值,要求输入数据为numpy的矩阵格式,行表示样本数,列表示特征    
def meanX(dataX):
    return np.mean(dataX,axis=0)#axis=0表示按照列来求均值,如果输入list,则axis=1

def pca(XMat, k):
    average = meanX(XMat) 
    m, n = np.shape(XMat)
    avgs = np.tile(average, (m, 1))
    data_adjust = XMat - avgs
    covX = np.cov(data_adjust.T)   #计算协方差矩阵
    featValue, featVec=  np.linalg.eig(covX)  #求解协方差矩阵的特征值和特征向量
    index = np.argsort(-featValue) #按照featValue进行从大到小排序
    if k > n:
        print ("k must lower than feature number")
        return
    else:
        #注意特征向量是列向量,而numpy的二维矩阵(数组)a[m][n]中,a[1]表示第1行值
        selectVec = np.matrix(featVec.T[index[:k]]) #所以这里需要进行转置
        finalData = data_adjust * selectVec.T 
        reconData = (finalData * selectVec) + average  
    return finalData, reconData


#根据数据集data.txt
def main():    
    XMat = np.loadtxt("data/SampleData.txt")
    k = 1 # 目标维数
    return pca(XMat, k)
    
if __name__ == "__main__":
    finalData, reconMat = main() 

我们依次查看运行过程求解得到的变量:
原始数据(待降维的数据集),XMat:
在这里插入图片描述
每列特征均值:average:
在这里插入图片描述
原始数据集每一维特征减去均值average,得到data_adjust:
在这里插入图片描述
计算data_adjust矩阵的协方差矩阵,得到covX矩阵:
在这里插入图片描述
计算协方差矩阵的特征值和特征向量:
特征值,feaValue:
在这里插入图片描述
特征向量,feaVec:
在这里插入图片描述
对特征值进行排序,从大到小,选取前k个特征值对应的特征向量,我们的例子是二维降一维,只需要选最大的特征值对应的特征向量(selectVec)即可,很显然是上述矩阵的第二列。
转换到新空间:
finalData = data_adjust * selectVec.T
在这里插入图片描述
python直接调用PCA模块实现:

from sklearn.decomposition import PCA
import numpy as np

datas = np.loadtxt('data/SampleData.txt') # 原始数据

pca = PCA(n_components=1)  # 加载PCA算法,设置降维后主成分数目为1
datas_pca = pca.fit_transform(datas)  # 对样本进行降维,data_pca降维后的数据

run result:
在这里插入图片描述
这样太方便了,感觉走上了人生巅峰!!!(我们最好在明白原理,计算步骤的情况下使用,莫要成为一名调包侠啦,哈哈)

注:发现一个问题,matlab降维和python降维结果不相同啊!它们的结果相差一个==负号==
这个并不影响后面的计算。
实际上,都是对的,为什么这么说呢?
仔细阅读你会发现,matlab和python在计算特征向量的过程中出现了差异,也就是出现了正负号的问题,第二个特征向量用matlab和python计算时,正负号不同啦。
出现的原因是什么呢?如果你学过线性代数,你会知道,一个矩阵A对应的特征值是不变的,特征值对应着特征向量,这个向量是一个通解(参数取值不同,会改变),k*p + C, 其中k和C是常数,而p是特征值对应的基础解系。因此,在matlab和python中出现正负号的原因,是常数的取值不同,比如说,matlab中,k默认取+1,C取0,而python中k默认取-1,C取0。因此,最终的结果,是正负号不同。
我们也可以这样理解,n维特征映射到k维,映射的方向不同(投影的方向),则出现结果符号(正负号)的差异。

如果你不是很懂,可以看我的关于求解矩阵特征值和特征向量的文章(请点这里)。

以上,是我们的个人理解,仅做参考,新手上路,勿喷啊,有错的的地方,请指正。

总结:PCA技术的一个很大的优点是它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。
但是,这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。

如果后期有空,源代码放github上,供需要的人免费使用,喜欢的给我点个star,谢谢。

参考和引用:

https://www.cnblogs.com/guoyaohua/p/8855636.html

https://www.cnblogs.com/jiangxinyang/p/9291741.html

https://www.cnblogs.com/zy230530/p/7074215.html

https://blog.csdn.net/google19890102/article/details/27969459

仅用来个人学习和分享,如若侵权,留言立删。

相关文章
|
5天前
|
算法 数据安全/隐私保护 索引
OFDM系统PAPR算法的MATLAB仿真,对比SLM,PTS以及CAF,对比不同傅里叶变换长度
本项目展示了在MATLAB 2022a环境下,通过选择映射(SLM)与相位截断星座图(PTS)技术有效降低OFDM系统中PAPR的算法实现。包括无水印的算法运行效果预览、核心程序及详尽的中文注释,附带操作步骤视频,适合研究与教学使用。
|
13天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
15天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
8天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
37 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
29 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
47 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
13天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
30 2
|
15天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
|
3月前
|
安全
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
本文介绍了2023年高教社杯数学建模竞赛D题的圈养湖羊空间利用率问题,包括问题分析、数学模型建立和MATLAB代码实现,旨在优化养殖场的生产计划和空间利用效率。
200 6
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
|
3月前
|
存储 算法 搜索推荐
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
本文提供了2022年华为杯数学建模竞赛B题的详细方案和MATLAB代码实现,包括方形件组批优化问题和排样优化问题,以及相关数学模型的建立和求解方法。
129 3
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
下一篇
无影云桌面