《Matrix Methods in Data Mining and Pattern Recognition》即在数据挖掘和模式识别中的矩阵论,分为三大模块:线代概念和矩阵分解、数据挖掘中的线代问题、计算矩阵分解(特征值和奇异值算法)。综合本书偏向应用,书中代码用matlab实现(当然也可以改用python写),课后练习题链接(https://archive.siam.org/books/fa04/ 感觉这本书还是比较老的 07年出版)
国科大-矩阵论视频:https://www.douban.com/note/782503147/
知识点总结
https://zhuanlan.zhihu.com/p/53977884
1.线性变换
定义:如果数域K上的线性空间V的一个变换T具有以下性质(即齐次性和叠加性)
其中
,则称T为V的一个线性变换或线性算子
旋转变换、微分、积分均属于线性变换
第一部分:线代概念和矩阵分解
第一章 Vectors and Matrices in Data Mining and Pattern Recognition
1.1 Data Mining and Pattern Recognition 3
很多时候数据是非结构化的,在大规划数据上提取有用信息即数据挖掘。
模式识别的定义:获取原始数据并根据模式的“类别”采取行动的行为。(the act of taking in raw data and making
an action based on the ‘category’ of the pattern)
1.2 Vectors and Matrices 4
稀疏矩阵:矩阵中大多数元素为0
栗子1:谷歌pagerank
我们把A矩阵的列向量记作:
所以A矩阵可以记作:
对于对A矩阵的线性变换即:
栗子2:手写识别
一个数字图片是16*16的灰度矩阵
栗子3:矩阵表示图
谷歌搜索引擎的核心是一个矩阵计算。用邻接矩阵描述网络结点的图(出边和入边):
1.3 Purpose of the Book 7
线代矩阵等在数据挖掘和模式识别中的应用。
1.4 Programming Environments 8
python
1.5 Floating Point Computations 浮点运算 8
栗子4:计算机图形学中的浮点计算
这坨没看懂
1.6 Notation and Conventions(符号和约定) 11
通常向量用小写斜体罗马字母表示,矩阵用大写斜体罗马字母或希腊字母表示
tensors是有3或者更多的维度:
上面的符号表示1在第i个位置。
单位矩阵(对角元素全部为1)记作I,
I k I_{k}
I
k
表示k×k的单位矩阵
diag(d1,…,dn)表示对角矩阵,特别的I=diag(1,1,…,1)。
第二章:向量和矩阵
2.1 Matrix-Vector Multiplication 13
2.2 Matrix-Matrix Multiplication 15
2.3 内积和向量范式 17
2.4 Matrix Norms 矩阵范式 18
2.5 Linear Independence: Bases(线性无关) 20
2.6 The Rank of a Matrix 矩阵的秩 21
第三章:Linear Systems and Least Squares(线性系统和最小二乘)
3.1 LU Decomposition(LU分解)23
3.2 Symmetric, Positive Definite Matrices(对称、正定矩阵)25
3.3 Perturbation Theory and Condition Number 26
3.4 Rounding Errors in Gaussian Elimination(高斯消元中的舍入误差)27
3.5 Banded Matrices(带状矩阵) 29
3.6 The Least Squares Problem 31
第四章:Orthogonality(正交性)
4.1 Orthogonal Vectors and Matrices . . . . . . . . . . . . . . . . . 38
4.2 Elementary Orthogonal Matrices . . . . . . . . . . . . . . . . . . 40
4.3 Number of Floating Point Operations . . . . . . . . . . . . . . . 45
4.4 Orthogonal Transformations in Floating Point Arithmetic . . . 46
第五章:QR Decomposition(QR分解)
5.1 Orthogonal Transformation to Triangular Form . . . . . . . . . 47
5.2 Solving the Least Squares Problem . . . . . . . . . . . . . . . . 51
5.3 Computing or Not Computing Q . . . . . . . . . . . . . . . . . 52
5.4 Flop Count for QR Factorization . . . . . . . . . . . . . . . . . 53
5.5 Error in the Solution of the Least Squares Problem . . . . . . . 53
5.6 Updating the Solution of a Least Squares Problem . . . . . . . . 54
第六章:Singular Value Decomposition(SVD奇异值分解)
6.1 The Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2 Fundamental Subspaces . . . . . . . . . . . . . . . . . . . . . . . 61
6.3 Matrix Approximation . . . . . . . . . . . . . . . . . . . . . . . 63
6.4 Principal Component Analysis . . . . . . . . . . . . . . . . . . . 66
6.5 Solving Least Squares Problems . . . . . . . . . . . . . . . . . . 66
6.6 Condition Number and Perturbation Theory for the Least Squares
Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.7 Rank-Deficient and Underdetermined Systems . . . . . . . . . . 70
6.8 Computing the SVD . . . . . . . . . . . . . . . . . . . . . . . . 72
6.9 Complete Orthogonal Decomposition . . . . . . . . . . . . . . . 72
第七章:Reduced-Rank Least Squares Models(降秩最小二乘模型)
7.1 Truncated SVD: Principal Component Regression . . . . . . . . 77
7.2 A Krylov Subspace Method . . . . . . . . . . . . . . . . . . . . 80
第八章:Tensor Decomposition(张量分解)
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.2 Basic Tensor Concepts . . . . . . . . . . . . . . . . . . . . . . . 92
8.3 A Tensor SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4 Approximating a Tensor by HOSVD . . . . . . . . . . . . . . . 96
第九章:Clustering and Nonnegative Matrix Factorization(聚类和非负矩阵分解)
9.1 The k-Means Algorithm . . . . . . . . . . . . . . . . . . . . . . 102
9.2 Nonnegative Matrix Factorization . . . . . . . . . . . . . . . . . 106
第二部分:数据挖掘应用
第十章:手写数字的分类
10.1 Handwritten Digits and a Simple Algorithm . . . . . . . . . . . 113
10.2 Classification Using SVD Bases . . . . . . . . . . . . . . . . . . 115
10.3 Tangent Distance . . . . . . . . . . . . . . . . . . . . . . . . . . 122
第十一章:文本挖掘
11.1 Preprocessing the Documents and Queries . . . . . . . . . . . . 130
11.2 The Vector Space Model . . . . . . . . . . . . . . . . . . . . . . 131
11.3 Latent Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . 135
11.4 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.5 Nonnegative Matrix Factorization . . . . . . . . . . . . . . . . . 141
11.6 LGK Bidiagonalization . . . . . . . . . . . . . . . . . . . . . . . 142
11.7 Average Performance . . . . . . . . . . . . . . . . . . . . . . . . 145
第十二章:搜索引擎的网页排名
12.1 Pagerank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
12.2 Random Walk and Markov Chains . . . . . . . . . . . . . . . . . 150
12.3 The Power Method for Pagerank Computation . . . . . . . . . . 154
12.4 HITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
第十三章:自动关键字和关键句提取
13.1 Saliency Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2 Key Sentence Extraction from a Rank-k Approximation . . . . . 165
第十四章:基于张量SVD的人脸识别
14.1 Tensor Representation . . . . . . . . . . . . . . . . . . . . . . . 169
14.2 Face Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 172
14.3 Face Recognition with HOSVD Compression . . . . . . . . . . . 175
第三部分:计算矩阵分解
第十五章:计算特征值和奇异值
15.1 Perturbation Theory . . . . . . . . . . . . . . . . . . . . . . . . 180
15.2 The Power Method and Inverse Iteration . . . . . . . . . . . . . 185
15.3 Similarity Reduction to Tridiagonal Form . . . . . . . . . . . . . 187
15.4 The QR Algorithm for a Symmetric Tridiagonal Matrix . . . . . 189
15.5 Computing the SVD . . . . . . . . . . . . . . . . . . . . . . . . 196
15.6 The Nonsymmetric Eigenvalue Problem . . . . . . . . . . . . . . 197
15.7 Sparse Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.8 The Arnoldi and Lanczos Methods . . . . . . . . . . . . . . . . 200
15.9 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Reference
https://www.cnblogs.com/gaosheng-221/p/6151968.html