半监督学习下的高维图构建

简介: 简述 介绍 概述 总结一.简述本次翻译一篇Liu Wei的一篇论文,之前介绍谱聚类的时候大家都知道,用谱聚类对样本进行分割,大概的流程就是先将原始数据通过不同的规则构建出相似度矩阵,然后再用相似度矩阵表示拉普拉斯矩阵,再对拉普拉斯矩阵进行特征分解,取前k个最小的特征值对应的特征向量,这几个特征向量组成的矩阵每行表示样本,进行聚类。
  • 简述
  • 介绍
  • 概述
  • 总结

一.简述

本次翻译一篇Liu Wei的一篇论文,之前介绍谱聚类的时候大家都知道,用谱聚类对样本进行分割,大概的流程就是先将原始数据通过不同的规则构建出相似度矩阵,然后再用相似度矩阵表示拉普拉斯矩阵,再对拉普拉斯矩阵进行特征分解,取前k个最小的特征值对应的特征向量,这几个特征向量组成的矩阵每行表示样本,进行聚类。但是在大数据下,传统的方法构建的相似度矩阵,需要每个样本都与别的样本之间计算相似度,那这样构建高纬度的相似度矩阵会很耗时间。传统的构建相似度矩阵都是样本与样本之间计算得到的,本篇论文中Liu就提出了全新的基于样本与m个初始聚类中心的关系构建样本与m个聚类中心的相似度矩阵Z后,再构建样本与样本间的相似度矩阵W。

 

二.介绍

随着互联网的快速发展,现在我们能收集大量的无类标数据,比如图像,声音,接着对对高维度半监督学习的需求就上升了。不幸的是,大多数的半监督学习方法对高维度下的数据具有很差的适应性。比如,经典的TSVM在面对以指数增长的数据大小时,是具有很高的计算量的挑战的。在大量的TSVM不同版本中,CCCP-TSVM具有最低的复杂度,但是也至少需要O(n^2)的复杂度,所以也很难处理高维数据。

基于图构建的半监督学习(Graph-based SSL)近来得到大家的注意,因为它很容易实施并且得到封闭解的方法。然而自从n*n的图拉普拉斯矩阵的逆矩阵需要后,Graph-based SSL经常会有立方的时间复杂度O(n^3)。因此,阻碍了对真实生活中大量无类标问题的广泛应用。为了调和立方的时间复杂度,近来的学习是寻找降低对拉普拉斯矩阵操作的计算量。Delalleu在2005年提出了一个无参归纳的方法,该方法能让类标预测建立在样本的子集上,接着缩短了子集样本上的拉普拉斯矩阵跟剩余样本德联系。很明显,这样的缩短方法忽略了输入数据的主要部分的拓扑结构,由此,丢失了大量数据信息。Zhu&Lafferty在2005年对原生数据构建了一个生成混合模型,提出了harmonic mixtures来测量类标预测的方法,但是这个没有解释怎样构建一个像提出的harmonic mixtures一样的高维稀疏矩阵。

在这片paper中,我们提出了一个高维图构建方法来高效的利用所有样本点。这个方法是简单且可可升级的,享有线性空间复杂性,时间复杂度与数据尺寸相关。

三.概述

我们从两方面尝试解决与半监督学习相关的可扩展问题:基于中心点的类标预测(anchor-based label prediction),邻接矩阵即样本与样本间的相似度矩阵的设计(adjacency matrix design)。

 

3.1Anchor-Based Label Prediction

我们关键的观察点是来自全尺寸下样本预测模型的基于图的半监督学习计算的密集型。自从在高维度下应用的无类标样本的数量变得巨大了以后,学习一个全尺寸下的预测模型是很低效率的。假设一个类标预测函数f : R^d → R,定义在输入样本上X={X1,X2,…,Xn}。我们假设前l个样本是有类标的,其余的样本是无类标的。为了在高维数据下适用,Delalleu在2005年构建了一个预测函数,该函数是在其中一部分anchors下的样本类标的加权平均值。如果能够推出类标与小得多的anchors子集的联系,其他无类标的样本就能很容易从简单的线性组合中获得类标。

这个想法是用了一个子集,这其中每个Uk充当了一个anchor中心点,(这些点就是初始化的anchors聚类中心点),现在对于每个xi的预测函数f(xi),我们替换成m个uk点放入预测函数求和。

这里Z_ik是样本适应权重(代表Xi样本与Uk的关联强度),这样的类标预测高效的进行无参的回归。让我们定义两个向量

重新写公式一:

这个公式提供了一个可扩展半监督学习的主要处理方法,因为它减少了无类标的解空间,从很大的f(n*1)到小的多的a(m*1)。这种高效的类标预测模型确实缓和了最初全尺寸模型的计算负担。

重要的是,我们使用Kmeans聚类中心代替随机取某些样本来表示这些anchor点{Uk}。因为使用kmeans聚类中心会有一个更好的充分覆盖,得到的聚类中心会更加均匀。

 

 

3.2邻接矩阵的设计

假设存在由n个数据点构建一个无向图G(V,E,W),V是图的节点,代表n个数据点,Vi代表Xi,E(V*V的维度)是边的集合,代表邻接矩阵的中的点,W是一个加权的邻接矩阵,该W测量边的长度。显然,图中的边连接是很重要的,一个广泛使用的连接策略是基于KNN原则构建图,当Xi是Xj最近的几个相邻点或者反之亦然时,KNN图会创造一条边来表示他两之间的联系。基于KNN原则构建图的时间复杂度为O(kn^2),所以传统的基于KNN原则构建的图在大尺度数据下是不可行的。即使我们或许能构造一个近似KNN原则构建的图来节省点时间,在涉及到操作高维图时,大矩阵的求逆或者大尺寸的线性求解仍然是一个大的障碍。

 

3.3设计原则

现在我们研究了一些指定高维度问题下设计Z和W的一些原则。

原则1

邻近的数据应该拥有相似的类标,相隔很远的数据应该类标很不相同。这使得我们也对Zik同样施加了影响,当Uk离Xi很远时,Zik=0.最终我们会得到一个稀疏非负的矩阵Z(n*m维度)

原则2

我们需要W>=0,非负的邻接矩阵能充分让得到的拉普拉斯矩阵L=D-W正定,该理论已经由Chuang在1997年证明了。这个非负的性质对确保得到很多基于图的半监督学习得到全局最优解很重要。

原则3

我们更想要一个稀疏矩阵W,因为稀疏矩阵能在不相似的点之间有更少的无用连接,这样的稀疏矩阵W会倾向于有更高的质量。Zhu在2008年已经指出稠密矩阵相比于稀疏矩阵会表现的更差。

 

直观的,我们会用一个非负的稀疏矩阵Z去设计非负稀疏矩阵W。实际上,在下一部分,我们会共同设计Z和W,产生一个经验上稀疏的高维度图。相反地,最近Zhang在2009年提出的Prototype Vector Machine (PVM),分开设计Z和W,产生了不适当的密集型图,除此之外,当使用Nystrom方法时,PVM未能保证图相邻矩阵的非负性。因此,PVM不能保证图拉普拉斯的时间消耗是收敛的。因此,我们直接设计W,确保它非负和稀疏的特性。

四.总结

本篇论文先翻译到这里,在这里我们发现了,在处理高维度数据时,传统的方法都因为很高的时间复杂度,而难以驾驭得了高维度数据处理问题。大家都在找原来样本与样本之间的相似矩阵W的近似表达。近期人们提出了样本与初始聚类的关系构建了相似度矩阵Z,想通过Z构建邻接矩阵也就是相似度矩阵W,这样的话,本来求W(n*n)的问题就会被转换成Z(n*m)的问题,m<<n,这就为我们在处理高维度数据上带来了可能。下次会着重讲解如何构建Z和W。

目录
相关文章
|
存储 数据库 Android开发
|
6月前
|
人工智能 供应链 安全
实现企业级 MCP 服务统一管理和智能检索的实践
本文将深入剖析 MCP Server 的五种主流架构模式,并结合 Nacos 服务治理框架,为企业级 MCP 部署提供实用指南。
1275 63
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
关于如何将深度学习模型从PyTorch的.pt格式转换为ONNX格式,然后再转换为TensorRT格式的实操指南。
2317 0
深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
|
6月前
|
人工智能 前端开发 数据可视化
天都塌了,17K+ Star 的AI开源神器!Onlook 如何颠覆前端开发与设计协作?怎么办
Onlook是一款开源的视觉优先代码编辑器,结合Figma直观操作与VS Code强大功能,支持浏览器中实时构建、编辑和部署React应用。项目已获17K+Star,提供快速创建Next.js应用、所见即所得的可视化编辑、AI驱动开发工具及一键部署协作等功能,是前端开发与设计协作的理想选择。
966 0
|
JavaScript API 开发者
Vue是如何进行组件化的
Vue是如何进行组件化的
197 18
|
机器学习/深度学习 人工智能 自然语言处理
深入浅出深度学习:从理论到实践的探索之旅
在人工智能的璀璨星空中,深度学习如同一颗耀眼的新星,以其强大的数据处理能力引领着技术革新的浪潮。本文将带您走进深度学习的核心概念,揭示其背后的数学原理,并通过实际案例展示如何应用深度学习模型解决现实世界的问题。无论您是初学者还是有一定基础的开发者,这篇文章都将为您提供宝贵的知识和启发。
211 5
WK
|
机器学习/深度学习 算法
什么是链式法则
链式法则在微积分中用于求复合函数的导数,简化了一元和多元函数的求导过程。在概率论与统计学中,它能够将复杂的联合概率分布分解为简单条件概率的乘积,便于分析。此外,在机器学习和深度学习等领域,链式法则也是反向传播算法的基础,帮助计算损失函数对网络参数的梯度,实现模型优化。这一法则为处理复合函数及概率问题提供了高效途径。
WK
1887 1
|
存储 DataWorks 数据处理
dataworks里面的stg层、ods层、dwd层、dws层、是怎么分层的呢?
【8月更文挑战第21天】dataworks里面的stg层、ods层、dwd层、dws层、是怎么分层的呢?
1348 7
|
供应链 搜索推荐 数据挖掘
微店商品详情数据接口(micro.item_get)丨微店API接口指南
`micro.item_get`接口是微店API的关键工具,让开发者能获取商品详情,包括名称、价格、描述、图片、销量和SKU,用于电商同步、数据分析、个性化营销和提升购物体验。此接口加速了数据驱动的决策和业务优化。
|
存储 数据挖掘 Python
Python技术分享:实现选择文件或目录路径的方法
Python技术分享:实现选择文件或目录路径的方法
1112 2