图解人工智能的数学基础(线性代数)

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文系统讲解线性代数核心概念,涵盖向量(定义、几何/坐标表示、内积)、矩阵(含义、运算、秩、逆、相似、分解)、行列式(几何意义与变换关系)、线性方程组、特征值与特征向量、二次型、向量空间及范数等,强调其在AI与神经网络中的实际应用。

 引言

      向量的定义为具有大小和方向的量。这里我们主要关注神经网络中用到的内容,弄清向量的性质。

研究对象:向量

      向量是有方向的线段线段的长度代表向量的大小,箭头代表向量的方向

几何视角和坐标表示

image.gif 编辑

image.gif 编辑

现实视角

向量可以代表着一些信息

image.gif 编辑

向量的大小

image.gif 编辑

image.gif 编辑

向量的内积

坐标视角

image.gif 编辑几何视角

      从几何角度来看,向量内积与向量的长度和它们之间的夹角有关。具体地,两个向量的内积可以表示为:

image.gif 编辑

研究手段:线性变换

image.gif 编辑

对称变换

image.gif 编辑

image.gif 编辑

image.gif 编辑

伸缩变换

image.gif 编辑

image.gif 编辑


行列式

image.gif 编辑

       矩阵是为了表达信息,行列式可以当成矩阵的一个性质。二维行列式的几何含义就是二维图像的有向面积。三维行列式的几何含义就是三维集合的有向体积。如果这个矩阵参与变换的话,对应的二维行列式的含义就是变换前后的有向面积之比。对应的三维行列式的几何含义就是变换前后的有向体积之比。

image.gif 编辑

行列式的意义

    如果这个矩阵参与变换的话,对应的二维行列式的含义就是变换前后的有向面积之比。对应的

三维行列式的几何含义就是变换前后的有向体积之比。

原始图形:单位正方形(顶点坐标构成的矩阵)顶点坐标:(0,0), (1,0), (1,1), (0,1)用矩阵表示(每

行一个顶点):

image.gif 编辑

    原始面积计算:单位正方形的面积公式:面积=边长×边长=1×1=1

    变换矩阵(选择拉伸变换):

    image.gif 编辑

    变换后图形

    image.gif 编辑

      变换后面积计算:拉伸后的矩形长 = 2,宽 = 1,面积 = 2×1=2

      变换后面积=∣det(M)∣×原始面积⟹2=∣2∣×1

      image.gif 编辑

      单位立方体的变换(体积比)

      原始图形与矩阵

      原始图形:单位立方体(顶点坐标构成的矩阵)顶点坐标(8 个顶点): (0,0,0), (1,0,0), (1,1,0),

      (0,1,0), (0,0,1), (1,0,1), (1,1,1), (0,1,1) 用矩阵表示(每行一个顶点):

      image.gif 编辑

      原始体积计算:单位立方体的体积公式:体积 =1×1×1=1

      变换矩阵(选择拉伸变换)

      image.gif 编辑

      变换后图形

      image.gif 编辑

      变换后体积计算:拉伸后的长方体长 = 2,宽 = 3,高 = 1,体积 =  2×3×1=6

      变换后体积=∣det(M)∣×原始体积⟹6=∣6∣×1

      image.gif 编辑

            对于行列式的计算而言,在实际的工程应用中直接可以用计算机计算,这里我们不做重点进行讨论。

      image.gif 编辑


      矩阵

      矩阵的含义

             一个标量就是一个单独的数。只具有数值大小,没有方向(部分有正负之分),运算遵循一般的代数法则。比如质量是数据标量。向量指具有大小和方向的量,在机器学习中,单条数据样本的表征都是以向量化的形式来完成的。矩阵是二维数组,AI中的应用:样本以矩阵形态表示: 公式条数据/样本,公式个特征的数据集,就是一个公式 的矩阵。

      image.gif 编辑

             标量,可以视为零阶张量。向量,可以视为一阶张量。矩阵,可以视为二阶张量。图片以矩阵形态表示:将一张彩色图片表示成一个公式的三阶张量(高度,宽度,通道)。 在这个例子的基础上,将这一定义继续扩展,即:用四阶张量(样本,高度,宽度,通道)表示一个包含多张图片的数据集。AI中的应用:张量是深度学习中一个非常重要的概念,大部分的数据和权重都是以张量的形态存储的,后续的所有运算和优化算法也都是基于张量进行的。

      image.gif 编辑

      矩阵的运算

            矩阵的运算有很多种,比如加减法,数乘,乘法,转置等等,每种运算都有现实含义和工程应用,这里我们讨论矩阵的乘法和转置的应用。

      矩阵的乘法

      image.gif 编辑

      矩阵的转置

             在现实问题中,系统信息表示的矩阵可能不是一个方阵,为了挖掘出这个数据集更多的信息,会左乘这个矩阵的转置,使其变成一个方阵,这个方阵中会包含更多的信息。

      image.gif 编辑

      矩阵的逆

      逻辑角度

      我们知道矩阵没有乘法,但是我们可以乘以一个逆数,这实现了同样的事情。

      如何与 2 个人分享 10 个苹果?

      image.gif 编辑

      集合角度

      image.gif 编辑

      现实角度

           如果乘坐公共汽车旅行,每位儿童 3 元,每位成人 3.20 元,总计 118.40 元。如果乘坐火车旅行,每位儿童3.50 元,每位成人 3.60  元,总计 135.20 元。

      有多少孩子,有多少成年人?

      image.gif 编辑

      伴随矩阵

             我们发明伴随矩阵的目的就是为了求逆矩阵的,课本上我们学到的是用初等行变换的方式去求逆矩阵,但是初等行变换的方法是不可控的,比较混乱,所以为了计算机可以更加便捷的去求到逆矩阵,所以我们便引入了伴随矩阵。

      image.gif 编辑

      矩阵相似

      定义角度

      image.gif 编辑

      几何角度

        初等行变换对应于在几何上进行基本的几何操作,例如缩放、旋转、平移等。这些操作不会改变变换的本质特性(矩阵矩阵的秩相同),只是改变了其表示形式。

      矩阵的秩

           矩阵的秩会决定最后的输出y的维度,所以研究矩阵的秩是很有意义的。的秩决定着有效方程的个数。r越小,y的维度越小。

      image.gif 编辑

            可以把矩阵看成是一个筛子,矩阵的秩看成是筛眼的大小,矩阵A的秩越小,对应的筛眼越小,自然漏过去的面粉越少。

      image.gif 编辑

      矩阵的秩

      假设我们有 3 名学生(A、B、C)的 3 科成绩(数学、语文、总分),用矩阵记录数据(行 = 学

      生,列 = 科目),矩阵记为X:

      image.gif 编辑

      从 “几何角度” 理解:秩是 “向量空间的维度”

      矩阵的本质是 “向量的集合”(这里每行是 1 个 3 维向量,代表 1 名学生的 3 科成绩),秩的几何

      含义就是这些向量能共同 “撑开” 的空间维度。

      将矩阵X的每行看作一个 3 维向量:

      学生 A 的向量: a  =(80,85,165)

      学生 B 的向量: b  =(70,90,160)

      学生 C 的向量: c  =(65,75,140)

      image.gif 编辑

        image.gif 编辑

      image.gif 编辑

      从 “实际意义角度” 理解:秩是 “独立信息的数量”

          实际场景中,矩阵的列代表 “特征”(这里是数学、语文、总分),秩的实际意义就是 “非冗余的

      独立特征数量”,即 “真正能提供新信息的科目数量”。数学和语文:这两科成绩相互独立 —— 数学

      考高分不代表语文一定高分(比如学生 B 数学 70 分,语文 90 分;学生 A 数学 80 分,语文 85

      分),因此这两科是 “独立信息”;总分:总分 = 数学 + 语文,它的所有数值都能由前两科计算得

      出,没有任何新信息(比如知道学生 A 的数学 80、语文 85,不用看也能算出总分 165),因此总

      分是 “冗余信息”。

      image.gif 编辑


      向量

      线性组合

      image.gif 编辑

      线性表示

      image.gif 编辑

      线性相关

      image.gif 编辑

      线性无关

      image.gif 编辑

      正交矩阵

             它可以改变原始向量的相对位置,保留了向量的长度和角度。(在计算机图形学中,正交矩阵用于表示旋转和反射。这些变换在动画和3D建模中非常重要。例如,3D物体的旋转可以用正交矩阵来表示,从而保持物体的形状和比例不变。)

      image.gif 编辑

      image.gif 编辑

      极大线性无关组

      所有有效向量(增加空间维度)构成的向量组

      image.gif 编辑

      向量组的秩

      张成空间的维数,张成的空间是2维的,秩为2。

      image.gif 编辑

      等价向量组

      image.gif 编辑

      image.gif 编辑

      施密特正交化

            非正交基转换为正交基。假设现在有两个向量是二维平面的一组非正交基。我们将其中一个向量向另外一个向量进行投影。操作时候就能得到该平面的一组正交基。

      image.gif 编辑

      image.gif 编辑

      矩阵分解

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑


      线性方程组

      非齐次线性方程组的解

      几何角度

      image.gif 编辑

      秩的角度

      image.gif 编辑

      基础解析

      基础解析:构成解空间的基

      b是在解空间的一个坐标

      基础解析的个数

      image.gif 编辑

      方程组的近似解

      image.gif 编辑


      矩阵的特征值和特征向量

      矩阵的特征值和特征向量

            特征值和特征向量反应了矩阵某种性质。矩阵可以对某个特征值对应的特征向量空间中的向量起到伸缩作用。

      image.gif 编辑

      相似矩阵

            我们就说B和A是相似的,既然相似那么一定有相同点,相同点是什么呐?它们是同一个线性映射在不同基下的线性表达。

      image.gif 编辑

      相似对角化

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑


      二次型

      用矩阵处理曲面曲线等非线性对象

      image.gif 编辑

      二次型理论来源于解析几何中化二次曲线及二次曲面方程为标准方程问题,我们学的普通二次型、标准形、规范形、正定二次型、非正定二次型实际上就是对图形的分类。

      image.gif 编辑

      image.gif 编辑

      矩阵合同

      同一事物在不同坐标系下的不同形态(本质就是在原来的坐标系下不好求最值,可以变换到另一个空间上求,求出坐标再映射到原来的坐标系)

      image.gif 编辑


      向量空间

      向量空间

      3个3维线性无关的向量,构成了一个3维空间(向量空间)

      image.gif 编辑

      线性表示

      这个空间种的其它向量都可由这三个向量线性表示。系数对应着这个向量的坐标。

      image.gif 编辑

      子空间

      下图分别是三维空间的一维子空间和二维子空间

      image.gif 编辑张成空间

      image.gif 编辑

      image.gif 编辑

      基底

      基底选择并不唯一

      image.gif 编辑

      过渡矩阵(基底变换)

      应用

      RGB颜色空间

      RGB颜色空间是通过红色(Red)、绿色(Green)和蓝色(Blue)三种基本颜色的不同组合来表示颜色的。每种颜色的值通常在0到255之间,表示颜色的强度。

      YPbPr颜色空间

      YPbPr颜色空间是一种常用于视频压缩和传输的颜色空间。它将颜色信息分为亮度(Y)和两种色度(Pb和Pr),其中:

      • Y 表示亮度(Luminance)
      • Pb 表示蓝色色差分量(Blue-difference Chroma)
      • Pr 表示红色色差分量(Red-difference Chroma)

      image.gif 编辑

      坐标变换

      image.gif 编辑

      相似对角化的重要意义

            简单来说学习相似的目的就是为了矩阵分解,比如我现在一个机器学习的表格数据,可以把它看成是一个矩阵,一般我们会让这个矩阵乘以它的转置变成一个对称阵。对这个对称阵矩阵分解成n个同样大小的矩阵,特征值的大小代表对应矩阵的重要程度。(主成分分析)

      矩阵的相似对角化

      image.gif 编辑

      实对称矩阵的相似对角化

      image.gif 编辑

      普通矩阵的分解(奇异值分解)

      但是一张照片不太可能是一个方阵,如何把它压缩存贮呐?中间是奇异值矩阵,奇异值越大表示和原来的照片越相似。

      image.gif 编辑


      矩阵求导

      image.gif 编辑


      范数

      为什么?    

      范数就是一种数学上的通用“尺子”或“度量衡”,它把复杂的向量世界简化为一个简单的数

      字,从而让我们能衡量大小、比较差异、约束行为等等。

               就比如在自然语言处理领域,向量的长度可以被视为该词的频率重要性范数

      越大, 可能表示这个词在语料库中出现的频率更高。

      image.gif 编辑

      曼哈顿距离(L1范数)

      image.gif 编辑

      image.gif 编辑

              最终我们计算的曼哈顿距离 = 0.8,两个水果在 “甜度” 上的差异(0.6)是主要贡献项,说明

      “草莓比柠檬甜很多” 是两者最核心的区别;两者在 “酸度” 上的差异较小(0.2),仅 “柠檬略酸于

      草莓”。草莓和柠檬的距离是0.8说明两者的口感特征差异显著。

      欧氏距离(L2范数)

      image.gif 编辑

      image.gif 编辑

          最终我们计算的柠檬和草莓的欧式距离 = 0.8,蓝莓和草莓的欧式距离是0.14,也可以说明,草

      莓和蓝莓的口感更相似。

      目录
      相关文章
      |
      1天前
      |
      机器学习/深度学习 人工智能 算法
      图解强化学习 |手算近端策略优化算法(PPO)
      PPO(近端策略优化)是当前最主流的强化学习算法,以训练稳定、上手简单、泛化性强著称。它通过Actor-Critic双网络架构,结合PPO-Clip损失函数限制策略更新幅度,并利用GAE优势估计提升样本效率,广泛应用于游戏AI、机器人控制、大模型对齐等领域。
      38 3
      |
      1天前
      |
      机器学习/深度学习 人工智能 算法
      图解人工智能的数学基础(高数)
      本文系统讲解微积分核心概念:数列与递推、极限(含无穷小/大)、导数(含中值定理、泰勒公式)、积分(不定/定/变上限/反常)及微分方程,并延伸至多元函数、偏导数、链式法则与二重积分,结合Sigmoid函数、药物衰减等实例及SymPy代码演示,突出其在AI与工程中的应用基础。
      43 5
      |
      1天前
      |
      机器学习/深度学习 自然语言处理 算法
      图解强化学习 |手算GRPO
      GRPO(分组相对策略优化)是PPO的无Critic简化版,仅用单一Actor网络,通过组内候选回答的相对奖励归一化替代优势函数估计;引入裁剪机制与KL正则,显著降低显存开销、提升训练稳定性与长链推理能力。(239字)
      43 4
      |
      1天前
      |
      人工智能 知识图谱
      图解人工智能的数学基础(概率论)
      本内容系统讲解概率论与数理统计核心知识:从随机事件、古典/几何概型、条件概率、贝叶斯公式,到一维随机变量及其分布(离散型/连续型)、数字特征(期望、方差、协方差、相关系数),再到大数定律、中心极限定理及卡方/t/F分布,最后涵盖最大似然估计方法。理论结合水果店、掷骰子等生活实例,图文并茂,深入浅出。
      36 2
      |
      1天前
      |
      机器学习/深度学习 算法 机器人
      图解强化学习 |手算SAC算法
      SAC(Soft Actor-Critic)是最稳定、强大的连续动作强化学习算法,广泛应用于机器人控制与决策任务。其核心是最大熵强化学习:通过双Q网络抑制过估计,柔性策略网络增强探索,自适应温度系数α动态平衡利用与探索,兼顾最优性与鲁棒性。(239字)
      39 0
      |
      1天前
      |
      JSON 运维 监控
      线上CPU突然飙到500%,凶手竟是一条日志
      一次CPU飙升至500%的故障,根源竟是一行日志:`logger.error("用户信息解析失败:" + userJson)`。异常请求携带近5万行乱码JSON,导致高频字符串拼接与磁盘写入,拖垮CPU。通过线程栈定位、降级日志、规范输出(限流/精简/监控),成功止损。教训深刻:看似无害的日志,亦是性能杀手。
      |
      1天前
      |
      设计模式 人工智能 数据可视化
      Agentic 设计模式拆解:6 种结构的优缺点与应用场景
      本文系统梳理Agentic AI六大核心设计模式:单一、顺序、并行智能体,循环评审,协调者与子智能体,以及作为工具的子智能体。聚焦智能体、用户、模型与工具间的结构化交互,提炼可复用的工程骨架,助力规模化落地。
      39 5
      Agentic 设计模式拆解:6 种结构的优缺点与应用场景
      |
      1天前
      |
      人工智能 自然语言处理 算法
      Is Grep All You Need?Agent 搜索里,Harness 比检索方法更重要
      本文解读PwC AI团队论文《Is Grep All You Need?》,聚焦Agent搜索中grep与向量检索的实效对比。研究发现:在长对话检索任务中,grep常优于向量检索,但效果高度依赖Agent Harness(运行环境)及工具返回方式(inline/file-based)。论文揭示——Agent搜索是系统工程,非单点技术问题。
      Is Grep All You Need?Agent 搜索里,Harness 比检索方法更重要
      |
      1天前
      |
      人工智能 调度
      如何独自完成工作任务
      在AI智能体时代,“一个人干一个部门的活”成为现实:关键不在加班,而在任务拆解、工具协同与流程复用。善用大模型、AI工具与自动化工作流,将重复劳动交给智能体,人专注判断、创意与交付。本质是构建“人+AI+系统”的高效协同范式。
      38 4
      |
      1天前
      |
      人工智能 API 开发工具
      阿里云CodingPlan购买订阅火爆,还有首月优惠吗?7.9元的Lite版本还有吗?
      阿里云百炼Coding Plan是专为开发者打造的AI编程订阅服务,当前仅开放Pro高级套餐(200元/月),含9万次/月请求额度,支持Qwen3.5-Plus、Kimi-k2.5等多模态模型。需每日9:30抢购,不支持退款。阿里云CodingPlan官方订阅链接:https://t.aliyun.com/U/G7pldC
      58 3