机器学习核心数学概念张量导数卷积入门-开发者社区-阿里云

数学符号	解释说明
$$O$$	算法时间复杂度的上限表示
$$\Omega$$	算法时间复杂度的下限表示
$$\alpha$$	学习率，机器学习模型训练中最常用的超参数之一，用于确定机器学习模型训练的速度。
$$\beta$$	回归系数。用来描述因变量与自变量关系的参数。
$$\lambda$$	正则化参数
$$\leftrightarrow$$	等于
$$\exists$$	存在
$$\forall$$	对每一个元素生效
$$I_{n}$$	n行n列的单位矩阵
$$v_{w}$$	编号为w词语的分布式向量表示。分布式向量通常具有：高维度，语义相似性和稠密性三个特征。
$$e_{w}$$	编号为w词语的独热编码表示[0,0,...,1,0,...0]，w下标处元素为 1
$$w_{i:j}$$	序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列
$$A_{::j}$$	三维张量 A 中的一个二维切片。
$$A^{T}$$	矩阵A的转置
$$A\odot B$$	矩阵 A 与矩阵 B 的 Hadamard 乘积，指的是两个同型矩阵中对应元素的逐个相乘，生成一个新的矩阵。
$$det(A)$$	矩阵 A 的行列式
$$[x;y]$$	向量或者矩阵的拼接
$$a\cdot b$$	向量或者矩阵之间的点积
$$\frac{dy}{dx}$$	y对x的导数
$$\frac{\partial y}{\partial x}$$	y对x的偏导数
$$\nabla f(\mathbf{x})$$	函数f对向量$\mathbf x$的梯度
$$a \bot b$$	随机变量 a 与 b 独立
$$a \bot b \| c$$	随机变量 a 与 b 关于 c 条件独立
$$a∼P$$	随机变量a服从分布P，$X∼Uniform(1,6)$表示随机变量x服从取值1-6的均匀分布，$Y∼N(170,10^{2})$表示随机变量Y服务均值为170，标准差为10的正太分布。
$$H (f (x))$$	随机变量x的信息熵
$$\sigma (x)$$	Sigmoid函数
$$\|\|x\|\|_2$$	x 的$L^2$范数
$$\|\|x\|\|_p$$	x 的$L^{p}$范数
$$\vec \theta$$	参数向量
$$\vec x \otimes \vec y$$	向量x与向量y的卷积
$$\sum_{i=1}^{n}{a_i}$$	$a_1 + a_2 + \dots + a_n$
$$X\sim N(\mu, \sigma)$$	随机变量X服从均值为$\mu$,标准差为$\sigma$的正态分布
$$\phi$$	标准正态分布的概率密度函数；激活函数
$$\Phi$$	标准正态分布的累积分布函数

张量

张量用于表示多维数据的结构，标量是0维张量，向量是一维张量，矩阵是二维张量。张量的形状表示其在每个维度上面的大小。例如，一个形状为 ($2\times3$) 的矩阵表示有2行3列。

假设有一个三维张量 ( T ) 的形状为 ( (3, 4, 5) )，表示有3个层，每层有4行5列。可以通过以下方式提取二维切片：

提取第一个层的切片：( T[0, :, :] ) 将返回一个形状为 ( (4, 5) ) 的二维切片。
提取第二行的切片：( T[:, 1, :] ) 将返回一个形状为 ( (3, 5) ) 的二维切片。
提取第三列的切片：( T[:, :, 2] ) 将返回一个形状为 ( (3, 4) ) 的二维切片。

矩阵转置

矩阵转置指的是将一个矩阵的行和列进行互换。矩阵转置操作具有如下性质：

双重转置：转置操作是可逆的，即 ( (A^T)^T = A )。
加法的转置：如果 ( A ) 和 ( B ) 是同型矩阵，则 ( (A + B)^T = A^T + B^T )。
乘法的转置：如果 ( A ) 是 ($m \times n$) 矩阵，( B ) 是 ( $n \times p$) 矩阵，则 ( (AB)^T = B^T A^T )。
标量乘法的转置：如果 ( c ) 是一个标量，则 ( (cA)^T = cA^T )。

导数

给定一个函数y=f(x)，其导数的公式表示为：$\frac{dy}{dx}=\lim_{\Delta x \rightarrow 0}{\frac {f(x+\Delta x) - f(x)}{\Delta x}}$。

导数的性质

线性性：如果 ( y = ax + b ) 是一个线性函数，则导数是常数 ( a )。
常数法则：如果 ( y = c )（常数），则 ( $\frac{dy}{dx} = 0$ )。
幂法则：如果 ( y = x^n )（( n ) 为常数），则 ( $\frac{dy}{dx} = nx^{n-1}$)。
和差法则：如果 ( y = f(x) + g(x) )，则 ($\frac{dy}{dx} = \frac{df}{dx} + \frac{dg}{dx}$)。
乘法法则：如果 ( y = f(x)g(x) )，则 ($\frac{dy}{dx} = f(x)\frac{dg}{dx} + g(x)\frac{df}{dx}$)（莱布尼茨法则）。
链式法则：如果 ( y = f(g(x)) )，则 ( $\frac{dy}{dx} = \frac{df}{dg} \cdot \frac{dg}{dx}$ )。

导数的应用

导数在优化算法中起着关键作用，尤其是在训练模型时，通过计算损失函数的梯度（导数），梯度下降法可以找到损失函数的最小值。

偏导数

对于一个函数 f(x, y) ，偏导数表示函数相对于某一个变量的变化率，而其他变量保持不变。f对x的偏导数用公式可以表示为：$\frac{\partial f}{\partial x} = \lim_{\Delta x \rightarrow 0}{\frac{f( x + \Delta x, y) - f(x, y)}{\Delta x}}$。

梯度

梯度用于描述一个函数在各个方向上的变化率，假设$\mathbf{x} = (x_1, x_2, \ldots, x_n)$是一个 n 维向量，那么函数 f 对于向量 $\mathbf x$的梯度为：$\nabla f(\mathbf{x}) = (\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},\ldots, \frac{\partial f}{\partial x_n})$，在机器学习模型训练的过程中，梯度用于更新模型参数，以最小化损失函数。

条件独立

随机变量 a 和 b 关于随机变量 c 条件独立，表示在给定 c 的情况下，a 和 b 的联合分布等于它们各自的条件分布的乘积。其用公式表示为：$P(a,b∣c)=P(a∣c)⋅P(b∣c)$。

信息熵

信息熵 H(x) 衡量了随机变量 x 的不确定性。熵越高，表示随机变量的取值越不确定，所需的信息量也越大；熵越低，表示随机变量的取值越确定，所需的信息量也越小。其公式表示如下：

$H(x) = -\sum_{i=1}^{n}{p(x_i)log_2 p(x_i)}$

Sigmoid函数

Signmoid函数公式为：$\frac{1}{1+e^{-x}}$，该函数在笛卡尔坐标系中呈一条S曲线，该函数的输出结果值在0到1之间。

范数

假设x是一个n维向量，那么x的$L^{p}$范数公式是：$$L^p = (\sum_{i=1}^{n}{x_i^p})^ \frac{1}{p}$$。在机器学习领域中，范数在在防止模型过拟合方面发挥着重要的作用。

正则化

正则化是机器学习领域中一种预防过拟合的手段，它可以提高模型的泛化能力。正则化通过在原来的损失函数中添加正则项来实现。

在机器学习模型中，变量的系数表示自变量对因变量的影响程度。通常情况下，系数的绝对值不应过大，因为这可能意味着模型对某些特征的过度依赖。

当系数过大时，模型可能会对训练数据中的噪声或异常值过于敏感。这种敏感性会导致模型在不同的数据集上表现不一致，从而使模型产生过拟合的现象。

我们可以使用L1范数和L2范数来实现正则化。

Lasso正则化就是在损失函数中加入L1正则项，其公式为：$$L= L_loss + \lambda\sum_{i=1}^{n}{|w_i|}$$，基于L1范数的正则化会使模型在训练的过程中将一些不重要的特征系数权重压缩为零，从而更好地帮助模型进行特征选择。

Ridage正则化则是在损失函数中加入L2正则项，其公式为：$$L=L_loss + \lambda\sum_{i=1}^{n}{w_i}^2$$。

参数向量

参数向量$\theta$是一组参数的集合，这些参数用于描述一个模型或函数。它们通常是模型的可调节部分，通过调整这些参数，可以改变模型的行为和输出。

机器学习的一个主要任务是从给定的输入 x 和输出 y 中找到参数向量$\theta$，使得模型 $f(x;\theta)$ 能够尽可能准确地预测 y。在获取最佳参数向量的过程中，我们会使用优化算法（例如：梯度下降法）和损失函数不断调整参数向量值。

卷积

卷积计算是机器学习领域常用的一种数学运算，卷积计算通常用来从图像数据中提取特征。如果一张图像中的数据被转换成一维向量输入到神经网络模型中，那么图像数据中的空间信息将会丢失。通过卷积计算提取图像中的特征则可以避免这个问题。

卷积计算过程主要涉及三个核心概念。

卷积核：一个小的矩阵，用于从输入数据中提取特征。卷积核的大小、形状和数值决定了它可以捕捉的特征类型。
滑动步长：卷积核在输入数据上滑动，每次移动一定的步长，每次滑动之后，卷积核与其覆盖的输入数据部分进行元素对应的乘积。
特征图：特征图是卷积计算之后输出的矩阵。将卷积核与输入数据的每个覆盖区域进行元素乘积后，再求和，得到的单个数值构成了输出的特征图的一个元素。

假设x代表输入的图片，y代表输出的特征图，w代表卷积核，s代表滑动步长。

则相关卷积计算公式为：$y[i,j]=∑_{u,v}x[i+u+s-1,j+v+s-1]⋅w[u,v]$。

具体示例如下图所示：

正态分布

正态分布（Normal Distribution）是一种重要的概率分布，广泛应用于统计学、自然科学、社会科学等多个领域。它的特点是数据在均值附近集中，随着离均值的距离增加，数据的概率逐渐减小。正态分布通常被描绘成一个钟形曲线。假设一个变量X服从参数为$\mu$和$\sigma$的正态分布，那么我们可以将其表示为：$X\sim N(\mu,\sigma)$。其中$\mu$表示均值，$\sigma$表示标准差。均值决定了正态分布的中心位置，标准差决定了数据的离散程度。对于正态分布，大约 68% 的数据落在均值的一个标准差以内，大约 95% 落在两个标准差以内，大约 99.7% 落在三个标准差以内。在机器学习领域中，很多机器学习算法都会假设数据符合正态分布。

概率密度函数

概率密度函数（Probability Density Function, PDF）是描述连续随机变量概率分布的函数。它用于表示随机变量在某个特定取值附近的概率密度。需要注意的是，概率密度并不等同于概率，在某个单位区间内，概率密度是可能大于1的，但是在该区间内的概率值却是不可能大于1的。假设随机变量X的分布符合概率密度函数f(x)，那么函数f(x)具有以下特性：

非负性：对于所有的x，$f(x) \geq 0$
归一化：整个概率密度函数的积分等于1，即：$\int_{-\infty}^{+\infty}f(x)d(x)=1$

对于某个区间[a, b]，随机变量x落在该区间内的概率可以通过积分计算：$P(a\leq x \leq b) = \int_{a}^{b}f(x)d(x)$

对于正态分布来讲，其概率密度函数为：$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$，其中，μ 是均值，σ 是标准差。

总结

本文介绍了一些机器学习领域常见的数学符号及其含义，在某些文章中这些数学符号可能有不同的含义。

机器学习领域必知数学符号与概念（一）

张量

矩阵转置

导数

偏导数

梯度

条件独立

信息熵

Sigmoid函数

范数

正则化

参数向量

卷积

正态分布

概率密度函数

总结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景