【机器学习】文章6（总结）-阿里云开发者社区

1.CONVEX BICLUSTERING摘要

首先对于 CONVEX BICLUSTERING做一个描述，CONVEX是凸面的，所以我们很容易就知道CONVEX BICLUSTERING是一个凸双聚类。

在双聚群问题中，我们寻求同时对观察结果和特征进行分组，虽然聚簇在从文本挖掘到协同过滤的广泛领域都有应用，但在高维基因组数据中识别结构的问题激发了这项工作。

在这种情况下，双聚簇使我们能够识别仅在实验条件子集内共同表达的基因子集，我们给出了双聚类问题的凸公式（目标函数为凸），它具有唯一的全局最小值和一个保证识别它的迭代算法（COBRA）

2.CONVEX BICLUSTERING介绍

在双聚类问题中，我们试图同时对数据矩阵中的观察值（列）和特征（行）进行分组。这种数据有时被描述为双向的，或可转换的，以将行和列放在平等的基础上，并强调在行和列变量中揭示结构的愿望。

双聚类用于广泛领域的可视化和探索性分析。

在协同过滤中，它可以用于识别对产品子集有相似偏好的客户子群（霍夫曼和普济查，1999）

🚀在这项工作中，我们专注于双聚簇来识别高维癌症基因组数据的模式

🚀亚型发现可以作为一个双聚类问题提出，其中基因表达数据被划分成一个棋盘状的模式

COBRA输出的结果保留了聚类树图的简单可解释性和可视化，并且与现有技术相比还具有几个关键优势：

稳定性和唯一性：COBRA为凸规划产生唯一的全局最小化，该最小化在数据中是连续的。这意味着COBRA总是将数据映射到单个双聚类分配，并且这个解决方法是稳定的。

简单性：COBRA采用单个调谐参数（a single tuning paramete）来控制双簇的数量；

数据自适应性：COBRA允许一个简单而有原则的数据自适应过程，用于选择涉及凸矩阵完成问题的调整参数。

3.双聚类的凸形式

🌈🌈 双聚类的算法

1.算法简介

双聚类简单来说就是在数据矩阵A中寻找一个满足条件矩阵B1的子矩阵A1，而B1是条件矩阵B的一个子矩阵.

2.算法常用的计算模型

目前定义双聚类算法有四种比较广泛的方式：(括号中为sklearn官网的说法)

2.1等值模型(常数值，常量行或常量列)

2.2加法模型(低方差的子矩阵)

2.3乘法模型(异常高或低的值)

2.4信息共演模型(相关的行或列)

3.两种特殊的双聚类结果(sklearn官网有算法的)

3.1对角线结构

3.2棋盘格结构

4.双聚类的两种算法

双聚类的算法有很多种，这里只介绍sklearn官网提供的两种算法，也就是上述两种特殊结构的算法。

4.1光谱联合聚类(Spectral Co-Clustering)

说明：因为我们不自己动手写算法，所以这里的公式就略过了。

4.1.1 算法作用

该算法找到的值高于相应的其他行和列中的值。每行和每列只属于一个双聚类，因此重新排列行和列中的这些高值，使这些分区沿着对角线连续显示。

4.1.1 主要计算过程

1)按照数学公式对矩阵进行预处理

2)对处理后的矩阵进行行和列的划分，之后按照另外一个数学公式生产一个新的矩阵Z

3)对矩阵Z的每行使用k-means算法

4.1.2 sklearn中的函数

1) sklearn.cluster.bicluster. SpectralCoclustering

2)主要参数(详细参数)

n_clusters ：聚类中心的数目，默认是3

svd_method：计算singular vectors的算法，‘randomized’(默认) 或 ‘arpack’.

n_svd_vecs ：计算singular vectors值时使用的向量数目

n_jobs ：计算时采用的线程或进程数量

3)主要属性

rows_ :二维数组，表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True，表示聚类i包含行r

columns_:二维数组，表示聚类的结果。

row_labels_ ：每行的聚类标签列表

column_labels_ :每列的聚类标签列表

4.2光谱双聚类(Spectral Biclustering)

4.2.1 算法作用

该算法假定输入的数据矩阵具有隐藏的棋盘结构，因此可以对其中的行和列进行划分，使得行簇和列簇的笛卡尔积中的任何双聚类的条目近似恒定。例如，如果有两个行分区和三个列分区，则每行将属于三个双聚集，而每列将属于两个双聚集。

该算法对矩阵的行和列进行划分，使相应的blockwise-constant棋盘格矩阵能够很好地逼近原始矩阵。

4.2.2 主要计算过程

1)对矩阵进行归一化

2)计算前几个singular vectors 值(奇异向量？总感觉这么翻译很别扭)

3)根据这些singular vectors值进行排序，使其可以更好的通过piecewise-constant向量进行近似表示

4) 使用一维k均值找到每个向量的近似值，并使用欧几里德距离进行评分

5) 选择最佳左右singular vectors的一些子集

6) 将数据投影到这个singular vectors的最佳子集并聚集

4.2.3 sklearn中的函数

1) sklearn.cluster.bicluster.SpectralBiclustering

2)主要参数(详细参数)

n_clusters ：单个数值或元组，棋盘结构中的行和列聚集的数量

method：把singular vectors值归一化并转换成biclusters的方法。默认值是‘bistochastic’。

3)主要属性

rows_ :二维数组，表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True，表示聚类i包含行r

columns_:二维数组，表示聚类的结果。

row_labels_ ：每行的分区标签列表

column_labels_ :每列的分区标签列表

这一部分为网上数据资料，仅供参考~~

4.凸函数的定义

对于一元函数f(xf(x)，如果对于任意tϵ［0,1]均满足：f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)，则称f(x)f(x)为凸函数。

同时如果对于任意tϵ（0,1))均满足：f(tx1+(1−t)x2)<tf(x1)+(1−t)f(x2)f(tx1+(1−t)x2)<tf(x1)+(1−t)f(x2)，则称f(x)f(x)为严格凸函数。

凸函数的性质：

定义在某个开区间C内的凸函数f在C内连续，且在除可数个点之外的所有点可微。如果C是闭区间，那么f有可能在C的端点不连续。

一元可微函数在某个区间上是凸的，当且仅当它的导数在该区间上单调不减。一元连续可微函数在区间上是凸的，当且仅当函数位于所有它的切线的上方：对于区间内的所有x和y，都有f(y)>f(x)+f '(x)(y−x）。特别地，如果f '(c)= 0，那么c是f（x）的最小值。

5.COBRA解的性质

Cobra 既是一个可以创建强大的现代 CLI 应用程序的库，也是一个可以生成应用和命令文件的程序。有许多大型项目都是用 Cobra 来构建应用程序的，例如 Kubernetes、Docker、etcd、Rkt、Hugo 等。

Cobra 建立在 commands、arguments 和 flags 结构之上。commands 代表命令，arguments 代表非选项参数，flags 代表选项参数（也叫标志）。一个好的应用程序应该是易懂的，用户可以清晰地知道如何去使用这个应用程序。应用程序通常遵循如下模式：APPNAME VERB NOUN --ADJECTIVE或者APPNAME COMMAND ARG --FLAG，例如：

kubectl get pod --all-namespace # get 是一个命令，pod 是一个非选项参数，all-namespace 是一个选项参数

这里，VERB 代表动词，NOUN 代表名词，ADJECTIVE 代表形容词

1、使用 Cobra 库创建命令

如果要用 Cobra 库编码实现一个应用程序，需要首先创建一个空的 main.go 文件和一个 rootCmd 文件，之后可以根据需要添加其他命令。具体步骤如下：

1.1、创建 rootCmd。

mkdir -p newApp2 && cd newApp2

通常情况下，我们会将 rootCmd 放在文件 cmd/root.go 中。

var rootCmd = &cobra.Command{

Use: "newApp2",

Short: "newApp2 is a demo project",

Long: `newApp2 is a demo project...`,

Run: func(cmd *cobra.Command, args []string) {

cmd.Help()

}

func Execute() {

if err := rootCmd.Execute(); err != nil {

fmt.Println(err)

os.Exit(1)

}

还可以在 init() 函数中定义标志和处理配置，例如 cmd/root.go。

import (

"fmt"

"os"

homedir "github.com/mitchellh/go-homedir"

"github.com/spf13/cobra"

"github.com/spf13/viper"

)

var (

cfgFile string

projectBase string

userLicense string

)

func init() {

cobra.OnInitialize(initConfig)

rootCmd.PersistentFlags().StringVar(&cfgFile, "config", "", "config file (default is $HOME/.cobra.yaml)")

rootCmd.PersistentFlags().StringVarP(&projectBase, "projectbase", "b", "", "base project directory eg. github.com/spf13/")

rootCmd.PersistentFlags().StringP("author", "a", "YOUR NAME", "Author name for copyright attribution")

rootCmd.PersistentFlags().StringVarP(&userLicense, "license", "l", "", "Name of license for the project (can provide `licensetext` in config)")

rootCmd.PersistentFlags().Bool("viper", true, "Use Viper for configuration")

viper.BindPFlag("author", rootCmd.PersistentFlags().Lookup("author"))

viper.BindPFlag("projectbase", rootCmd.PersistentFlags().Lookup("projectbase"))

viper.BindPFlag("useViper", rootCmd.PersistentFlags().Lookup("viper"))

viper.SetDefault("author", "NAME HERE <EMAIL ADDRESS>")

viper.SetDefault("license", "apache")

}

func initConfig() {

// Don't forget to read config either from cfgFile or from home directory!

if cfgFile != "" {

// Use config file from the flag.

viper.SetConfigFile(cfgFile)

} else {

// Find home directory.

home, err := homedir.Dir()

if err != nil {

fmt.Println(err)

os.Exit(1)

}

// Search config in home directory with name ".cobra" (without extension).

viper.AddConfigPath(home)

viper.SetConfigName(".cobra")

}

if err := viper.ReadInConfig(); err != nil {

fmt.Println("Can't read config:", err)

os.Exit(1)

}

1.2、创建 main.go。

我们还需要一个 main 函数来调用 rootCmd，通常我们会创建一个 main.go 文件，在 main.go 中调用 rootCmd.Execute() 来执行命令：

package main

import (

"{pathToYourApp}/cmd"

)

func main() {

cmd.Execute()

}

需要注意，main.go 中不建议放很多代码，通常只需要调用 cmd.Execute() 即可。

1.3、添加命令。

除了 rootCmd，我们还可以调用 AddCommand 添加其他命令，通常情况下，我们会把其他命令的源码文件放在 cmd/ 目录下，例如，我们添加一个 version 命令，可以创建 cmd/version.go 文件，内容为：

package cmd

import (

"fmt"

"github.com/spf13/cobra"

)

func init() {

rootCmd.AddCommand(versionCmd)

}

var versionCmd = &cobra.Command{

Use: "version",

Short: "Print the version number of Hugo",

Long: `All software has versions. This is Hugo's`,

Run: func(cmd *cobra.Command, args []string) {

fmt.Println("Hugo Static Site Generator v0.9 -- HEAD")

}

本示例中，我们通过调用rootCmd.AddCommand(versionCmd)给 rootCmd 命令添加了一个 versionCmd 命令。

1.44、编译并运行。

将 main.go 中{pathToYourApp}替换为对应的路径，例如本示例中 pathToYourApp 为github.com/marmotedu/gopractise-demo/cobra/newApp2。

$ go mod init github.com/marmotedu/gopractise-demo/cobra/newApp2

$ go build -v .

$ ./newApp2 -h

A Fast and Flexible Static Site Generator built with

love by spf13 and friends in Go.

Complete documentation is available at http://hugo.spf13.com

Usage:

hugo [flags]

hugo [command]

Available Commands:

help Help about any command

version Print the version number of Hugo

Flags:

-a, --author string Author name for copyright attribution (default "YOUR NAME")

--config string config file (default is $HOME/.cobra.yaml)

-h, --help help for hugo

-l, --license licensetext Name of license for the project (can provide licensetext in config)

-b, --projectbase string base project directory eg. github.com/spf13/

--viper Use Viper for configuration (default true)

Use "hugo [command] --help" for more information about a command.

通过步骤一、步骤二、步骤三，我们就成功创建和添加了 Cobra 应用程序及其命令。

2、使用标志

Cobra 可以跟 Pflag 结合使用，实现强大的标志功能。使用步骤如下：

2.1、使用持久化的标志。

标志可以是“持久的”，这意味着该标志可用于它所分配的命令以及该命令下的每个子命令。可以在 rootCmd 上定义持久标志：

rootCmd.PersistentFlags().BoolVarP(&Verbose, "verbose", "v", false, "verbose output")

2.2、使用本地标志。

也可以分配一个本地标志，本地标志只能在它所绑定的命令上使用：

rootCmd.Flags().StringVarP(&Source, "source", "s", "", "Source directory to read from")

--source标志只能在 rootCmd 上引用，而不能在 rootCmd 的子命令上引用。

2.3、将标志绑定到 Viper。

我们可以将标志绑定到 Viper，这样就可以使用 viper.Get() 获取标志的值。

var author string

func init() {

rootCmd.PersistentFlags().StringVar(&author, "author", "YOUR NAME", "Author name for copyright attribution")

viper.BindPFlag("author", rootCmd.PersistentFlags().Lookup("author"))

}

2.4、设置标志为必选。

默认情况下，标志是可选的，我们也可以设置标志为必选，当设置标志为必选，但是没有提供标志时，Cobra 会报错。

rootCmd.Flags().StringVarP(&Region, "region", "r", "", "AWS region (required)")

rootCmd.MarkFlagRequired("region")

3、非选项参数验证

在命令的过程中，经常会传入非选项参数，并且需要对这些非选项参数进行验证，Cobra 提供了机制来对非选项参数进行验证。可以使用 Command 的 Args 字段来验证非选项参数。Cobra 也内置了一些验证函数：

NoArgs：如果存在任何非选项参数，该命令将报错。

ArbitraryArgs：该命令将接受任何非选项参数。

OnlyValidArgs：如果有任何非选项参数不在 Command 的 ValidArgs 字段中，该命令将报错。

MinimumNArgs(int)：如果没有至少 N 个非选项参数，该命令将报错。

MaximumNArgs(int)：如果有多于 N 个非选项参数，该命令将报错。

ExactArgs(int)：如果非选项参数个数不为 N，该命令将报错。

ExactValidArgs(int)：如果非选项参数的个数不为 N，或者非选项参数不在 Command 的 ValidArgs 字段中，该命令将报错。

RangeArgs(min, max)：如果非选项参数的个数不在 min 和 max 之间，该命令将报错。

使用预定义验证函数，示例如下：

var cmd = &cobra.Command{

Short: "hello",

Args: cobra.MinimumNArgs(1), // 使用内置的验证函数

Run: func(cmd *cobra.Command, args []string) {

fmt.Println("Hello, World!")

}

当然你也可以自定义验证函数，示例如下：

var cmd = &cobra.Command{

Short: "hello",

// Args: cobra.MinimumNArgs(10), // 使用内置的验证函数

Args: func(cmd *cobra.Command, args []string) error { // 自定义验证函数

if len(args) < 1 {

return errors.New("requires at least one arg")

}

if myapp.IsValidColor(args[0]) {

return nil

}

return fmt.Errorf("invalid color specified: %s", args[0])

Run: func(cmd *cobra.Command, args []string) {

fmt.Println("Hello, World!")

}

4、PreRun and PostRun Hooks

在运行 Run 函数时，我们可以运行一些钩子函数，比如 PersistentPreRun 和 PreRun 函数在 Run 函数之前执行，PersistentPostRun 和 PostRun 在 Run 函数之后执行。如果子命令没有指定PersistentRun函数，则子命令将会继承父命令的PersistentRun函数。这些函数的运行顺序如下：

1、PersistentPreRun

2、PreRun

3、Run

4、PostRun

5、PersistentPostRun

注意，父级的 PreRun 只会在父级命令运行时调用，子命令是不会调用的。

Cobra 还支持很多其他有用的特性，比如：自定义 Help 命令；可以自动添加--version标志，输出程序版本信息；当用户提供无效标志或无效命令时，Cobra 可以打印出 usage 信息；当我们输入的命令有误时，Cobra 会根据注册的命令，推算出可能的命令，等等。

【机器学习】文章6（总结）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【机器学习】文章6（总结）

热门文章

最新文章

相关电子书