数学符号 | 解释说明 | |
---|---|---|
O |
算法时间复杂度的上限表示 | |
Ω |
算法时间复杂度的下限表示 | |
α |
学习率,机器学习模型训练中最常用的超参数之一,用于确定机器学习模型训练的速度。 | |
β |
回归系数。用来描述因变量与自变量关系的参数。 | |
λ |
正则化参数 | |
↔ |
等于 | |
∃ |
存在 | |
∀ |
对每一个元素生效 | |
In |
n行n列的单位矩阵 | |
vw |
编号为w词语的分布式向量表示。分布式向量通常具有:高维度,语义相似性和稠密性三个特征。 | |
ew |
编号为w词语的独热编码表示[0,0,...,1,0,...0],w下标处元素为 1 | |
wi:j |
序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列 | |
A::j |
三维张量 A 中的一个二维切片。 | |
AT |
矩阵A的转置 | |
A⊙B |
矩阵 A 与矩阵 B 的 Hadamard 乘积,指的是两个同型矩阵中对应元素的逐个相乘,生成一个新的矩阵。 | |
det(A) |
矩阵 A 的行列式 | |
[x;y] |
向量或者矩阵的拼接 | |
a⋅b |
向量或者矩阵之间的点积 | |
dydx |
y对x的导数 | |
∂y∂x |
y对x的偏导数 | |
∇f(x) |
函数f对向量x的梯度 | |
a⊥b |
随机变量 a 与 b 独立 | |
a⊥b|c |
随机变量 a 与 b 关于 c 条件独立 | |
a∼P |
随机变量a服从分布P,X∼Uniform(1,6)表示随机变量x服从取值1-6的均匀分布,Y∼N(170,102)表示随机变量Y服务均值为170,标准差为10的正太分布。 | |
H(f(x)) |
随机变量x的信息熵 | |
σ(x) |
Sigmoid函数 | |
||x||2 |
x 的L2范数 | |
||x||p |
x 的Lp范数 | |
→θ |
参数向量 | |
→x⊗→y |
向量x与向量y的卷积 | |
n∑i=1ai |
a1+a2+⋯+an | |
X∼N(μ,σ) |
随机变量X服从均值为μ,标准差为σ的正态分布 | |
ϕ |
标准正态分布的概率密度函数;激活函数 | |
Φ |
标准正态分布的累积分布函数 |
张量
张量用于表示多维数据的结构,标量是0维张量,向量是一维张量,矩阵是二维张量。张量的形状表示其在每个维度上面的大小。例如,一个形状为 (2×3) 的矩阵表示有2行3列。
假设有一个三维张量 ( T ) 的形状为 ( (3, 4, 5) ),表示有3个层,每层有4行5列。可以通过以下方式提取二维切片:
提取第一个层的切片:( T[0, :, :] ) 将返回一个形状为 ( (4, 5) ) 的二维切片。
提取第二行的切片:( T[:, 1, :] ) 将返回一个形状为 ( (3, 5) ) 的二维切片。
提取第三列的切片:( T[:, :, 2] ) 将返回一个形状为 ( (3, 4) ) 的二维切片。
矩阵转置
矩阵转置指的是将一个矩阵的行和列进行互换。矩阵转置操作具有如下性质:
双重转置:转置操作是可逆的,即 ( (A^T)^T = A )。
加法的转置:如果 ( A ) 和 ( B ) 是同型矩阵,则 ( (A + B)^T = A^T + B^T )。
乘法的转置:如果 ( A ) 是 (m×n) 矩阵,( B ) 是 ( n×p) 矩阵,则 ( (AB)^T = B^T A^T )。
标量乘法的转置:如果 ( c ) 是一个标量,则 ( (cA)^T = cA^T )。
导数
给定一个函数y=f(x),其导数的公式表示为:dydx=limΔx→0f(x+Δx)−f(x)Δx。
导数的性质
线性性:如果 ( y = ax + b ) 是一个线性函数,则导数是常数 ( a )。
常数法则:如果 ( y = c )(常数),则 ( dydx=0 )。
幂法则:如果 ( y = x^n )(( n ) 为常数),则 ( dydx=nxn−1)。
和差法则:如果 ( y = f(x) + g(x) ),则 (dydx=dfdx+dgdx)。
乘法法则:如果 ( y = f(x)g(x) ),则 (dydx=f(x)dgdx+g(x)dfdx)(莱布尼茨法则)。
链式法则:如果 ( y = f(g(x)) ),则 ( dydx=dfdg⋅dgdx )。
导数的应用
导数在优化算法中起着关键作用,尤其是在训练模型时,通过计算损失函数的梯度(导数),梯度下降法可以找到损失函数的最小值。
偏导数
对于一个函数 f(x, y) ,偏导数表示函数相对于某一个变量的变化率,而其他变量保持不变。f对x的偏导数用公式可以表示为:∂f∂x=limΔx→0f(x+Δx,y)−f(x,y)Δx。
梯度
梯度用于描述一个函数在各个方向上的变化率,假设x=(x1,x2,…,xn)是一个 n 维向量,那么函数 f 对于向量 x的梯度为:∇f(x)=(∂f∂x1,∂f∂x2,…,∂f∂xn),在机器学习模型训练的过程中,梯度用于更新模型参数,以最小化损失函数。
条件独立
随机变量 a 和 b 关于随机变量 c 条件独立,表示在给定 c 的情况下,a 和 b 的联合分布等于它们各自的条件分布的乘积。其用公式表示为:P(a,b∣c)=P(a∣c)⋅P(b∣c)。
信息熵
信息熵 H(x) 衡量了随机变量 x 的不确定性。熵越高,表示随机变量的取值越不确定,所需的信息量也越大;熵越低,表示随机变量的取值越确定,所需的信息量也越小。其公式表示如下:
H(x)=−∑ni=1p(xi)log2p(xi)
Sigmoid函数
Signmoid函数公式为:11+e−x,该函数在笛卡尔坐标系中呈一条S曲线,该函数的输出结果值在0到1之间。
范数
假设x是一个n维向量,那么x的Lp范数公式是:Lp=(n∑i=1xpi)1p
正则化
正则化是机器学习领域中一种预防过拟合的手段,它可以提高模型的泛化能力。正则化通过在原来的损失函数中添加正则项来实现。
在机器学习模型中,变量的系数表示自变量对因变量的影响程度。通常情况下,系数的绝对值不应过大,因为这可能意味着模型对某些特征的过度依赖。
当系数过大时,模型可能会对训练数据中的噪声或异常值过于敏感。这种敏感性会导致模型在不同的数据集上表现不一致,从而使模型产生过拟合的现象。
我们可以使用L1范数和L2范数来实现正则化。
Lasso正则化就是在损失函数中加入L1正则项,其公式为:L=Lloss+λn∑i=1|wi|
Ridage正则化则是在损失函数中加入L2正则项,其公式为:L=Lloss+λn∑i=1wi2
参数向量
参数向量θ是一组参数的集合,这些参数用于描述一个模型或函数。它们通常是模型的可调节部分,通过调整这些参数,可以改变模型的行为和输出。
机器学习的一个主要任务是从给定的输入 x 和输出 y 中找到参数向量θ,使得模型 f(x;θ) 能够尽可能准确地预测 y。在获取最佳参数向量的过程中,我们会使用优化算法(例如:梯度下降法)和损失函数不断调整参数向量值。
卷积
卷积计算是机器学习领域常用的一种数学运算,卷积计算通常用来从图像数据中提取特征。如果一张图像中的数据被转换成一维向量输入到神经网络模型中,那么图像数据中的空间信息将会丢失。通过卷积计算提取图像中的特征则可以避免这个问题。
卷积计算过程主要涉及三个核心概念。
卷积核:一个小的矩阵,用于从输入数据中提取特征。卷积核的大小、形状和数值决定了它可以捕捉的特征类型。
滑动步长:卷积核在输入数据上滑动,每次移动一定的步长,每次滑动之后,卷积核与其覆盖的输入数据部分进行元素对应的乘积。
特征图:特征图是卷积计算之后输出的矩阵。将卷积核与输入数据的每个覆盖区域进行元素乘积后,再求和,得到的单个数值构成了输出的特征图的一个元素。
假设x代表输入的图片,y代表输出的特征图,w代表卷积核,s代表滑动步长。
则相关卷积计算公式为:y[i,j]=∑u,vx[i+u+s−1,j+v+s−1]⋅w[u,v]。
具体示例如下图所示:
正态分布
正态分布(Normal Distribution)是一种重要的概率分布,广泛应用于统计学、自然科学、社会科学等多个领域。它的特点是数据在均值附近集中,随着离均值的距离增加,数据的概率逐渐减小。正态分布通常被描绘成一个钟形曲线。假设一个变量X服从参数为μ和σ的正态分布,那么我们可以将其表示为:X∼N(μ,σ)。其中μ表示均值,σ表示标准差。均值决定了正态分布的中心位置,标准差决定了数据的离散程度。对于正态分布,大约 68% 的数据落在均值的一个标准差以内,大约 95% 落在两个标准差以内,大约 99.7% 落在三个标准差以内。在机器学习领域中,很多机器学习算法都会假设数据符合正态分布。
概率密度函数
概率密度函数(Probability Density Function, PDF)是描述连续随机变量概率分布的函数。它用于表示随机变量在某个特定取值附近的概率密度。需要注意的是,概率密度并不等同于概率,在某个单位区间内,概率密度是可能大于1的,但是在该区间内的概率值却是不可能大于1的。假设随机变量X的分布符合概率密度函数f(x),那么函数f(x)具有以下特性:
非负性:对于所有的x,f(x)≥0
归一化:整个概率密度函数的积分等于1,即:∫+∞−∞f(x)d(x)=1
对于某个区间[a, b],随机变量x落在该区间内的概率可以通过积分计算:P(a≤x≤b)=∫baf(x)d(x)
对于正态分布来讲,其概率密度函数为:f(x)=1σ√2πe−(x−μ)22σ2,其中,μ 是均值,σ 是标准差。
总结
本文介绍了一些机器学习领域常见的数学符号及其含义,在某些文章中这些数学符号可能有不同的含义。