PCA、NMF、KNN在实战中的算法解析

简介: 本文着重探索PCA、NMF、KNN这三种算法在实战中的表现。

我们用一些工具对数据进行降维,看看结果会怎样。PCA(主成分分析—对高维数据降维)会解决这个问题。NMF(非负矩阵分析对高维数据降维,并且对事物的局部特性有很好的解释)在分解图像时经常会发现有用的“部分”来表达整体,并且在MNIST数据集或人脸识别数据集中会产生有趣的结果。本文着重探索这三种算法如何处理数据集。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline   
plt.rcParams['image.cmap'] = 'gray'

def read_vectors(*filenames):
    data = np.vstack(
        tuple(np.fromfile(filename, dtype=np.uint8).reshape(-1,401)
                      for filename in filenames))
    return data[:,1:], data[:,0]

X_train, y_train = read_vectors(*[
    "../input/snake-eyes/snakeeyes_{:02d}.dat".format(nn) for nn in range(2)])
X_test, y_test = read_vectors("../input/snake-eyes/snakeeyes_test.dat")

本文算法是基于 https//www.kaggle.com/chientien/mnist-pca-nmf-lda-t-sne,其对MNIST数据集做了完整的分析。

主成分分析-PCA

首先,让我们看看前几个主成分“解释”数据的能力。

In [2]:
from sklearn.decomposition import PCA
pca = PCA(random_state=0, whiten=True)
pca.fit(X_train);
    In [3]:
 
   
exp_var_cum = np.cumsum(pca.explained_variance_ratio_)
plt.plot(range(exp_var_cum.size), exp_var_cum)
plt.grid()

2e176ba97ccea1dc4f520010ce8a2d117900b1ef
  In [4]:
 
   
 
   
plt.plot(range(exp_var_cum.size), exp_var_cum, '-+')
plt.grid()
plt.xlim(15,105)
plt.ylim(0.6,0.95);
83b5cbfd939af62bc9479062eae0e0964f2420c4

如上图所示,结果与MNIST没有太多区别,我们可以认为,PCA解释不了这些图像数据集,因此二者都不能对例子中前10个部分拥有100%的解释。这实际上是告诉我们这个问题是具有非凸性的,因为这些数据确实非常适合约束的流形,原因是大部分的变化都是来自骰子上的3-DOF变换。然而,PCA似乎并不能解释这些数据,这是因为这些各种形式的“细条”的流形遍布各处,而PCA仅能找到的一个方向。

  In [5]:
 
   
 
   
 
   
plt.figure(figsize=(20,10))
for k in range(40):
    plt.subplot(4,10,k+1)
    plt.imshow(pca.components_[k].reshape(20,20))
    plt.axis('off')

                          03706e9c38ec3ccef7fef679bdf9e9aab78f2a1d

如上所示,看起来我们得到了几组正交基函数,类似于傅里叶变换或球面傅里叶变换。在比较好的震动之后,数据集有了克拉尼图案。

值得注意的是,尽管从上面的曲线中很难看出和MNIST有什么区别,但如果我们观察一下MNIST上现在的主要部分,它们看起来仍然像某些数字的组合。第一个MNIST的主要部分的外观如下图所示。

540fdb4bdb25c32995312c1166431ee872def912

从外形轮廓上,可以很容易看到数字“0”或“9”,在这种情况下,我们得到了一些很基础的结论:MNIST和Snake Eyes实际上有很大的区别。

让我们把PCA分割成90个部分(达到90%的“可解释性”),然后尝试一些NN(最近的邻居)。

  In [6]:
 
    
 
    
 
    
pca = PCA(n_components=90, random_state=0, whiten=True)
pca.fit(X_train)
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

但是,首先我想知道的是:PCA重建图像是什么样子的?

  In [7]:
 
    
 
    
 
    
X_reconstructed_pca = pca.inverse_transform(X_test_pca)

plt.figure(figsize=(20,10))
for k in range(20):
    plt.subplot(4, 10, k*2 + 1)
    plt.imshow(X_test[k].reshape(20,20))
    plt.axis('off')
    plt.subplot(4, 10, k*2 + 2)
    plt.imshow(X_reconstructed_pca[k].reshape(20,20))
    plt.axis('off')

1907657df1e5f74e4da6b015d588e816ba4af689

外形可能会很丑,但是我们可以看到所有的面。我们有想要的:用较少的变量(只有原始特征向量大小的25%)来识别图片。在这之前,我分割成了40个部分,不过表面上看起来很模糊。在以后的研究中,你可以尝试使用这个参数,本文中,我们的重点是做好的图像,并且分割成90个部分更好一些。

  In [8]:
 
      
 
      
 
      
KNN_PCA_TRAIN_SIZE = 200000
KNN_PCA_TEST_SIZE = 200

from sklearn.neighbors import KNeighborsClassifier
temp = []
for i in [1, 5]:
    knn_pca = KNeighborsClassifier(n_neighbors=i, n_jobs=8)
    knn_pca.fit(X_train_pca[:KNN_PCA_TRAIN_SIZE], y_train[:KNN_PCA_TRAIN_SIZE])
    train_score_pca = knn_pca.score(X_train_pca[:KNN_PCA_TEST_SIZE], y_train[:KNN_PCA_TEST_SIZE])
    test_score_pca = knn_pca.score(X_test_pca[:KNN_PCA_TEST_SIZE], y_test[:KNN_PCA_TEST_SIZE])
    li = [i,train_score_pca,test_score_pca]
    temp.append(li)
temp
   Out [8]:
[[1, 1.0, 0.5], [5, 0.56499999999999995, 0.44500000000000001]]

这个算法限制了所使用数据的数量,因为NN的推论过程需要运行很长时间。你可能想利用PCA的变换矢量来代替原始矢量,这其中唯一的原因就是:节省计算时间。实际上,使用PCA可能不是一个最好主意,但是别无他法。当看见有人使用PCA直接应用于图像分类时,可以肯定的是他们大多是别无选择并且预算有限,但又非常迫切的希望在数据上运行分类模型,然后看到自己被迫做的在很多情况下都不利于分类的简化工作。

有时候在计算PCA时丢弃的信息恰好是有可能对数据分类有用的信息,还有数据压缩即最小化重建误差。这就是LDA要做的,找到对分类真正重要的方向,而不是representation。这是两个完全不同的问题:representation和分类。事实上,人们可能想知道的是机器学习的终极目标并不是能否找到一个好的分类算法。

现在NN测试结束了,尽管没有使用所有的数据,但我们仍然得到一个很有趣的结果:分类达到了50%的准确性。其性能比之前的LDA要好很多,它显示了最近邻居的优点,以及灵活性比LDA更好。这里更明显的是,在MNIST上LDA的表现也不是太差。不管怎么说,NN运行的速度还是很慢。

NMF-非负矩阵分解

  如果PCA不是一个特别好的算法,我们可以使用更加非线性的算法,和更适合于图像分析的算法,如非负矩阵分解,据研究人员声称它甚至与深度学习有关,这令人感到兴奋。

训练NMF的代码如下:

  In [9]:
 
     
 
     
 
     
NMF_TRAIN_SIZE = 100000
from sklearn.decomposition import NMF
nmf = NMF(n_components=90, random_state=0)
nmf.fit(X_train[:NMF_TRAIN_SIZE])

   Out [9]:

 
   
 
   
 
   
 
   
 
   

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,

  n_components=90, random_state=0, shuffle=False, solver='cd', tol=0.0001,

  verbose=0)

      我必须强调的是,NMF训练耗时。所以我们再次减少样本数量,这只是就它是如何运行的做了一个实验。很难说整个数据集的表现(效率和精确度)是什么样的,剩下的问题就交由GPU处理了。

 再次检查这些成分的外观,NMF更倾向于找到图片的“部分”,这是非负性的结果。如果你想把你输入的图像分解成比从PCA得到的更“局部”的东西,那么非负性是个非常好的策略。

我们的数据集显然有“部分”:我们正模拟这些骰子,实际上是两个可以独立移动和旋转的物理部件,或许NMF可以发现这一点。我们的基本原则应该假设你在任何地方似乎都需要表示出一个骰子,然后我们就可以用一个表示出两个,因为它是线性合成的。

  In [10]:
 
     
 
     
 
     
plt.figure(figsize=(20,10))
for k in range(40):
    plt.subplot(4, 10, k + 1)
    plt.imshow(nmf.components_[k].reshape(20,20))
    plt.axis('off')

b08c40140bff0446c502ed6f1b1f4c221eb46d62

  这是不是很有意思?它确实实现了一些效果。如上图,如果使用较少的成分,那么很明显就可以看到一些骰子大小的大斑点,建议你可以尝试一下。使用更多的成分,这些微小的斑点就会四处移动,并且旋转的骰子是以某种形式重建的……它看起来像单个骰子的某些部分,正如前面假设的,两个骰子或整个图像的大小没有任何变大。

  这些斑点很小、难以辨认,甚至可以说更像是一个个的像素。在这里,或许NMF所做的不是寻找一个低分辨率的表示,而是比PCA更有条理的运行。

 重建图像过程如下:

  In [11]:
 
     
 
     
 
     
X_train_nmf = nmf.transform(X_train)
X_test_nmf = nmf.transform(X_test)
X_reconstructed = nmf.inverse_transform(X_test_nmf)

  In [12]:
 
      
 
      
 
      
plt.figure(figsize=(20,10))
for k in range(20):
    plt.subplot(4, 10, k*2 + 1)
    plt.imshow(X_test[k].reshape(20,20))
    plt.axis('off')
    plt.subplot(4, 10, k*2 + 2)
    plt.imshow(X_reconstructed[k].reshape(20,20))
    plt.axis('off')
34103f709525526319ab619a1b5e9ea5b04c1217

        如上图所示,与PCA提供的重建相反,图片的背景是黑色的,而骰子的重构图模糊的方式也不同。让我们再次在相同的NN模型中实验下,看看结果有什么不同:重建图像有59%的准确性,比PCA性能更好。

  In [13]:
 
     
 
     
 
     
plt.figure(figsize=(20,10))
for k in range(20):
    plt.subplot(4, 10, k*2 + 1)
    plt.imshow(X_test[k].reshape(20,20))
    plt.axis('off')
    plt.subplot(4, 10, k*2 + 2)
    plt.imshow(X_reconstructed[k].reshape(20,20))
    plt.axis('off')  
  Out [13]:
 
    
 
    
 
    
 [[1, 1.0, 0.57499999999999996], [5, 0.70999999999999996, 0.59999999999999998]]

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Trying out some PCA, NMF and KNN,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
15天前
|
算法 数据可视化 测试技术
HNSW算法实战:用分层图索引替换k-NN暴力搜索
HNSW是一种高效向量检索算法,通过分层图结构实现近似最近邻的对数时间搜索,显著降低查询延迟。相比暴力搜索,它在保持高召回率的同时,将性能提升数十倍,广泛应用于大规模RAG系统。
85 10
HNSW算法实战:用分层图索引替换k-NN暴力搜索
|
21天前
|
存储 人工智能 算法
从零掌握贪心算法Java版:LeetCode 10题实战解析(上)
在算法世界里,有一种思想如同生活中的"见好就收"——每次做出当前看来最优的选择,寄希望于通过局部最优达成全局最优。这种思想就是贪心算法,它以其简洁高效的特点,成为解决最优问题的利器。今天我们就来系统学习贪心算法的核心思想,并通过10道LeetCode经典题目实战演练,带你掌握这种"步步为营"的解题思维。
|
23天前
|
机器学习/深度学习 缓存 算法
微店关键词搜索接口核心突破:动态权重算法与语义引擎的实战落地
本文详解微店搜索接口从基础匹配到智能推荐的技术进阶路径,涵盖动态权重、语义理解与行为闭环三大创新,助力商家提升搜索转化率、商品曝光与用户留存,实现技术驱动的业绩增长。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
436 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
2月前
|
机器学习/深度学习 存储 算法
动态规划算法深度解析:0-1背包问题
0-1背包问题是经典的组合优化问题,目标是在给定物品重量和价值及背包容量限制下,选取物品使得总价值最大化且每个物品仅能被选一次。该问题通常采用动态规划方法解决,通过构建二维状态表dp[i][j]记录前i个物品在容量j时的最大价值,利用状态转移方程避免重复计算子问题,从而高效求解最优解。
356 1
|
2月前
|
算法 搜索推荐 Java
贪心算法:部分背包问题深度解析
该Java代码基于贪心算法求解分数背包问题,通过按单位价值降序排序,优先装入高价值物品,并支持部分装入。核心包括冒泡排序优化、分阶段装入策略及精度控制,体现贪心选择性质,适用于可分割资源的最优化场景。
200 1
贪心算法:部分背包问题深度解析
|
2月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
2月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
机器学习/深度学习 算法 自动驾驶
332 0
|
2月前
|
机器学习/深度学习 人工智能 资源调度
大语言模型的核心算法——简要解析
大语言模型的核心算法基于Transformer架构,以自注意力机制为核心,通过Q、K、V矩阵动态捕捉序列内部关系。多头注意力增强模型表达能力,位置编码(如RoPE)解决顺序信息问题。Flash Attention优化计算效率,GQA平衡性能与资源消耗。训练上,DPO替代RLHF提升效率,MoE架构实现参数扩展,Constitutional AI实现自监督对齐。整体技术推动模型在长序列、低资源下的性能突破。
302 8

热门文章

最新文章

推荐镜像

更多
  • DNS