【机器学习】文章4

简介: 首先对于 CONVEX BICLUSTERING做一个描述,CONVEX是凸面的,所以我们很容易就知道CONVEX BICLUSTERING是一个凸双聚类。在双聚群问题中,我们寻求同时对观察结果和特征进行分组,虽然聚簇在从文本挖掘到协同过滤的广泛领域都有应用,但在高维基因组数据中识别结构的问题激发了这项工作。

1.CONVEX BICLUSTERING摘要

首先对于 CONVEX BICLUSTERING做一个描述,CONVEX是凸面的,所以我们很容易就知道CONVEX BICLUSTERING是一个凸双聚类。


在双聚群问题中,我们寻求同时对观察结果和特征进行分组,虽然聚簇在从文本挖掘到协同过滤的广泛领域都有应用,但在高维基因组数据中识别结构的问题激发了这项工作。


在这种情况下,双聚簇使我们能够识别仅在实验条件子集内共同表达的基因子集,我们给出了双聚类问题的凸公式(目标函数为凸),它具有唯一的全局最小值和一个保证识别它的迭代算法(COBRA)


🚩学习回忆站:


还能记得什么是凸函数吗?


设函数image.png为凸函数,当且仅当对定义域中任意两点image.png和任意实数image.png,总有:

image.png

通过图像直观来看,凸函数上任意浪点连接而成的虚线,永远在凸函数曲线的上方,如图所示:

image.png

它的简单性、可解释性和算法保证——这些特征可以说是目前替代算法所缺乏的;

我们展示了我们的方法的优势,包括在模拟和真实的微阵列数据上稳定和可重复地识别双簇。

2.CONVEX BICLUSTERING介绍

在双聚类问题中,我们试图同时对数据矩阵中的观察值(列)和特征(行)进行分组。这种数据有时被描述为双向的,或可转换的,以将行和列放在平等的基础上,并强调在行和列变量中揭示结构的愿望。


双聚类用于广泛领域的可视化和探索性分析。


在协同过滤中,它可以用于识别对产品子集有相似偏好的客户子群(霍夫曼和普济查,1999)


🚀在这项工作中,我们专注于双聚簇来识别高维癌症基因组数据的模式


🚀亚型发现可以作为一个双聚类问题提出,其中基因表达数据被划分成一个棋盘状的模式


COBRA输出的结果保留了聚类树图的简单可解释性和可视化,并且与现有技术相比还具有几个关键优势:


稳定性和唯一性:COBRA为凸规划产生唯一的全局最小化,该最小化在数据中是连续的。这意味着COBRA总是将数据映射到单个双聚类分配,并且这个解决方法是稳定的。

简单性:COBRA采用单个调谐参数(a single tuning paramete)来控制双簇的数量;

数据自适应性:COBRA允许一个简单而有原则的数据自适应过程,用于选择涉及凸矩阵完成问题的调整参数。

3.双聚类的凸形式

🌈🌈 双聚类的算法


1.算法简介


      双聚类简单来说就是在数据矩阵A中寻找一个满足条件矩阵B1的子矩阵A1,而B1是条件矩阵B的一个子矩阵.


2.算法常用的计算模型


      目前定义双聚类算法有四种比较广泛的方式:(括号中为sklearn官网的说法)


2.1等值模型(常数值,常量行或常量列)

image.png

2.2加法模型(低方差的子矩阵)

image.png

2.3乘法模型(异常高或低的值)

image.png

2.4信息共演模型(相关的行或列)

image.png

3.两种特殊的双聚类结果(sklearn官网有算法的)


3.1对角线结构

image.png

3.2棋盘格结构

image.png

4.双聚类的两种算法


       双聚类的算法有很多种,这里只介绍sklearn官网提供的两种算法,也就是上述两种特殊结构的算法。


4.1光谱联合聚类(Spectral Co-Clustering)


       说明:因为我们不自己动手写算法,所以这里的公式就略过了。


4.1.1 算法作用


      该算法找到的值高于相应的其他行和列中的值。每行和每列只属于一个双聚类,因此重新排列行和列中的这些高值,使这些分区沿着对角线连续显示。


4.1.1 主要计算过程


     1)按照数学公式对矩阵进行预处理


     2)对处理后的矩阵进行行和列的划分,之后按照另外一个数学公式生产一个新的矩阵Z


     3)对矩阵Z的每行使用k-means算法


4.1.2 sklearn中的函数


    1) sklearn.cluster.bicluster. SpectralCoclustering


    2)主要参数(详细参数)


      n_clusters :聚类中心的数目,默认是3


      svd_method:计算singular vectors的算法,‘randomized’(默认) 或 ‘arpack’.


      n_svd_vecs :计算singular vectors值时使用的向量数目


      n_jobs :计算时采用的线程或进程数量


 3)主要属性


      rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r


     columns_:二维数组,表示聚类的结果。


     row_labels_ :每行的聚类标签列表


     column_labels_ :每列的聚类标签列表


4.2光谱双聚类(Spectral Biclustering)


4.2.1 算法作用


     该算法假定输入的数据矩阵具有隐藏的棋盘结构,因此可以对其中的行和列进行划分,使得行簇和列簇的笛卡尔积中的任何双聚类的条目近似恒定。例如,如果有两个行分区和三个列分区,则每行将属于三个双聚集,而每列将属于两个双聚集。


     该算法对矩阵的行和列进行划分,使相应的blockwise-constant棋盘格矩阵能够很好地逼近原始矩阵。


4.2.2 主要计算过程


    1)对矩阵进行归一化


    2)计算前几个singular vectors 值(奇异向量?总感觉这么翻译很别扭)


    3)根据这些singular vectors值进行排序,使其可以更好的通过piecewise-constant向量进行近似表示


   4) 使用一维k均值找到每个向量的近似值,并使用欧几里德距离进行评分


   5) 选择最佳左右singular vectors的一些子集


   6) 将数据投影到这个singular vectors的最佳子集并聚集


4.2.3 sklearn中的函数


    1) sklearn.cluster.bicluster.SpectralBiclustering


    2)主要参数(详细参数)


      n_clusters :单个数值或元组,棋盘结构中的行和列聚集的数量


      method:把singular vectors值归一化并转换成biclusters的方法。默认值是‘bistochastic’。


   3)主要属性


      rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r


     columns_:二维数组,表示聚类的结果。


     row_labels_ :每行的分区标签列表


     column_labels_ :每列的分区标签列表


这一部分为网上数据资料,仅供参考~~


对于权重的明智选择我们能够:


使用单个正则化参数γ;

获得更简洁的聚类;

加速CORBA使用的关键字程序的收敛。


目录
相关文章
|
5月前
|
机器学习/深度学习 资源调度 算法
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
159 0
|
8月前
|
机器学习/深度学习 数据采集 人工智能
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
176 1
|
存储 机器学习/深度学习 并行计算
【机器学习】文章9
①Numpy的简介 NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 🚩一个用python实现的科学计算,包括: 1、一个强大的N维数组对象Array; 2、比较成熟的(广播)函数库; 3、用于整合C/C++和Fortran代码的工具包; 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算
72 0
【机器学习】文章9
|
机器学习/深度学习 算法 数据挖掘
机器学习:基本算法分类体系结构和文章汇总
机器学习:基本算法分类体系结构和文章汇总
|
机器学习/深度学习 BI 索引
【机器学习】文章8
numpy中的ndarray为多维数组,是numpy中最为重要也是python进行科学计算非常重要和基本的数据类型。numpy中基本的运算符进行了重载,算数运算符和逻辑运算符都是逐元素操作的,还有广播机制,使得一个标量与多维数组相互运算的时候也是逐元素运算。
134 0
【机器学习】文章8
|
存储 机器学习/深度学习 并行计算
【机器学习】文章7
NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
88 0
【机器学习】文章7
|
机器学习/深度学习 Kubernetes 算法
【机器学习】文章6(总结)
该算法假定输入的数据矩阵具有隐藏的棋盘结构,因此可以对其中的行和列进行划分,使得行簇和列簇的笛卡尔积中的任何双聚类的条目近似恒定。例如,如果有两个行分区和三个列分区,则每行将属于三个双聚集,而每列将属于两个双聚集。
98 0
【机器学习】文章6(总结)
|
机器学习/深度学习 Kubernetes 算法
【机器学习】文章5
对于一元函数f(xf(x),如果对于任意tϵ[0,1]均满足:f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2),则称f(x)f(x)为凸函数。 同时如果对于任意tϵ(0,1))均满足:f(tx1+(1−t)x2)<tf(x1)+(1−t)f(x2)f(tx1+(1−t)x2)<tf(x1)+(1−t)f(x2),则称f(x)f(x)为严格凸函数。
190 0
【机器学习】文章5
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】文章3(总结)
衡量模型模型预测的好坏。再简单一点说就是:损失函数就是用来表现预测与实际数据的差距程度。
122 0
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】文章2
聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容。聚类是在无标记样本的条件下将数据分组,他通常被用于以下三个方面: 🌈发现数据的潜在结构 🌈对数据进行自然分组 🌈对数据进行压缩
125 0
【机器学习】文章2

热门文章

最新文章