AI数学基础之:奇异值和奇异值分解

2022-04-29 449

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI数学基础之:奇异值和奇异值分解

简介

奇异值是矩阵中的一个非常重要的概念，一般是通过奇异值分解的方法来得到的，奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法，在统计学和信号处理中非常的重要。

在了解奇异值之前，让我们先来看看特征值的概念。

相似矩阵

在线性代数中，相似矩阵是指存在相似关系的矩阵。设A，B为n阶矩阵，如果有n阶可逆矩阵P存在，使得P^-1AP=B，则称矩阵A与B相似，记为A~B。

对角矩阵

对角矩阵(diagonal matrix)是一个主对角线之外的元素皆为0的矩阵，常写为diag（a1，a2,...,an) 。对角矩阵可以认为是矩阵中最简单的一种，值得一提的是：对角线上的元素可以为 0 或其他值，对角线上元素相等的对角矩阵称为数量矩阵；对角线上元素全为1的对角矩阵称为单位矩阵。对角矩阵的运算包括和、差运算、数乘运算、同阶对角阵的乘积运算，且结果仍为对角阵。

可对角化矩阵

可对角化矩阵是线性代数和矩阵论中重要的一类矩阵。如果一个方块矩阵 A 相似于对角矩阵，也就是说，如果存在一个可逆矩阵 P 使得 P ⁻¹AP 是对角矩阵，则它就被称为可对角化的。

特征值

设A为n阶矩阵，若存在常数λ及n维非零向量x，使得Ax=λx，则称λ是矩阵A的特征值，x是A属于特征值λ的特征向量。

一个矩阵的一组特征向量是一组正交向量。

即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被改变。

一个线性变换通常可以由其特征值和特征向量完全描述。特征空间是相同特征值的特征向量的集合。

特征分解

特征分解（Eigendecomposition），又称谱分解（Spectral decomposition）是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。需要注意只有对可对角化矩阵才可以施以特征分解。

令 A 是一个 N×N 的方阵，且有 N 个线性无关的特征向量 q_i(i=1,…,N)。这样， A 可以被分解为: A= QΛQ^-1

其中 Q 是N×N方阵，且其第 i列为 A 的特征向量。如果A的所有特征向量用x1,x2 … xm来表示的话，那么Q可以表示为：[x1,x2,…,xm][x1,x2,…,xm], 其中x是n维非零向量。

Λ 是对角矩阵，其对角线上的元素为对应的特征值，也即Λ_ii=λ_i。也就是⎡⎣⎢λ1…0………0…λm⎤⎦⎥[λ1…0………0…λm]

这里需要注意只有可对角化矩阵才可以作特征分解。比如 [1101][1101]不能被对角化，也就不能特征分解。

因为 A= QΛQ^-1 ，可以看做A被分解为三个矩阵，也就是三个映射。

假如现在有一个向量x，我们可以得出下面的结论：

Ax=QΛQ−1xAx=QΛQ−1x

Q是正交矩阵，正交阵的逆矩阵等于其转置,所以Q−1Q−1 = QTQT. QTQT对x的变换是正交变换，它将x用新的坐标系来表示，这个坐标系就是A的所有正交的特征向量构成的坐标系。比如将x用A的所有特征向量表示为：

x=a1x1+a2x2+…+amxmx=a1x1+a2x2+…+amxm

则通过第一个变换就可以把x表示为[a1a2...am]T[a1a2...am]T。

QΛQ−1x=QΛ⎡⎣⎢⎢⎢⎢⎢⎢xT1xT2……xTm⎤⎦⎥⎥⎥⎥⎥⎥(a1x1+a2x2+a3x3+…+amxm)=QΛ⎡⎣⎢⎢⎢a1a2…am⎤⎦⎥⎥⎥QΛQ−1x=QΛ[x1Tx2T……xmT](a1x1+a2x2+a3x3+…+amxm)=QΛ[a1a2…am]

然后，在新的坐标系表示下，由中间那个对角矩阵对新的向量坐标换，其结果就是将向量往各个轴方向拉伸或压缩:

QΛ⎡⎣⎢⎢⎢a1a2…am⎤⎦⎥⎥⎥=Q⎡⎣⎢λ1…0………0…λm⎤⎦⎥⎡⎣⎢⎢⎢a1a2…am⎤⎦⎥⎥⎥=Q⎡⎣⎢⎢⎢λ1a1λ2a2…λmam⎤⎦⎥⎥⎥QΛ[a1a2…am]=Q[λ1…0………0…λm][a1a2…am]=Q[λ1a1λ2a2…λmam]

如果A不是满秩的话，那么就是说对角阵的对角线上元素存在0，这时候就会导致维度退化，这样就会使映射后的向量落入m维空间的子空间中。

最后一个变换就是Q对拉伸或压缩后的向量做变换，由于Q和Q−1Q−1是互为逆矩阵，所以Q变换是Q−1Q−1变换的逆变换。

特征值的几何意义

一个矩阵乘以一个列向量相当于矩阵的列向量的线性组合。一个行向量乘以矩阵，相当于矩阵的行向量的线性组合。

所以向量乘以矩阵之后，相当于将这个向量进行了几何变换。

之前讲了 Λ 是对角矩阵，其对角线上的元素为对应的特征值，也即Λ_ii=λ_i。也就是⎡⎣⎢λ1…0………0…λm⎤⎦⎥[λ1…0………0…λm]

这些特征值表示的是对向量做线性变换时候，各个变换方向的变换幅度。

奇异值 Singular value

假如A是m * n阶矩阵，q=min(m,n)，A*A的q个非负特征值的算术平方根叫作A的奇异值。

奇异值分解SVD

特征值分解可以方便的提取矩阵的特征，但是前提是这个矩阵是一个方阵。如果是非方阵的情况下，就需要用到奇异值分解了。先看下奇异值分解的定义：

A=UΣVTA=UΣVT

其中A是目标要分解的m * n的矩阵，U是一个 n * n的方阵，Σ 是一个n * m 的矩阵，其非对角线上的元素都是0。VTVT是V的转置，也是一个n * n的矩阵。

奇异值跟特征值类似，在矩阵Σ中也是从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵。r是一个远小于m、n的数，这样就可以进行压缩矩阵。

通过奇异值分解，我们可以通过更加少量的数据来近似替代原矩阵。

AI数学基础之:奇异值和奇异值分解

简介

相似矩阵

对角矩阵

可对角化矩阵

特征值

特征分解

特征值的几何意义

奇异值 Singular value

奇异值分解SVD

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI数学基础之:奇异值和奇异值分解

简介

相似矩阵

对角矩阵

可对角化矩阵

特征值

特征分解

特征值的几何意义

奇异值 Singular value

奇异值分解SVD

热门文章

最新文章

相关课程

相关电子书

相关实验场景