机器学习领域必知数学符号与概念(一)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文介绍了一些数学符号以及这些符号的含义。
数学符号 解释说明
$$O$$ 算法时间复杂度的上限表示
$$\Omega$$ 算法时间复杂度的下限表示
$$\alpha$$ 学习率,机器学习模型训练中最常用的超参数之一,用于确定机器学习模型训练的速度。
$$\beta$$ 回归系数。用来描述因变量与自变量关系的参数。
$$\lambda$$ 正则化参数
$$\leftrightarrow$$ 等于
$$\exists$$ 存在
$$\forall$$ 对每一个元素生效
$$I_{n}$$ n行n列的单位矩阵
$$v_{w}$$ 编号为w词语的分布式向量表示。分布式向量通常具有:高维度,语义相似性和稠密性三个特征。
$$e_{w}$$ 编号为w词语的独热编码表示[0,0,...,1,0,...0],w下标处元素为 1
$$w_{i:j}$$ 序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列
$$A_{::j}$$ 三维张量 A 中的一个二维切片。
$$A^{T}$$ 矩阵A的转置
$$A\odot B$$ 矩阵 A 与矩阵 B 的 Hadamard 乘积,指的是两个同型矩阵中对应元素的逐个相乘,生成一个新的矩阵。
$$det(A)$$ 矩阵 A 的行列式
$$[x;y]$$ 向量或者矩阵的拼接
$$a\cdot b$$ 向量或者矩阵之间的点积
$$\frac{dy}{dx}$$ y对x的导数
$$\frac{\partial y}{\partial x}$$ y对x的偏导数
$$\nabla f(\mathbf{x})$$ 函数f对向量$\mathbf x$的梯度
$$a \bot b$$ 随机变量 a 与 b 独立
$$a \bot b | c$$ 随机变量 a 与 b 关于 c 条件独立
$$a∼P$$ 随机变量a服从分布P,$X∼Uniform(1,6)$表示随机变量x服从取值1-6的均匀分布,$Y∼N(170,10^{2})$表示随机变量Y服务均值为170,标准差为10的正太分布。
$$H (f (x))$$ 随机变量x的信息熵
$$\sigma (x)$$ Sigmoid函数
$$||x||_2$$ x 的$L^2$范数
$$||x||_p$$ x 的$L^{p}$范数
$$\vec \theta$$ 参数向量
$$\vec x \otimes \vec y$$ 向量x与向量y的卷积
$$\sum_{i=1}^{n}{a_i}$$ $a_1 + a_2 + \dots + a_n$
$$X\sim N(\mu, \sigma)$$ 随机变量X服从均值为$\mu$,标准差为$\sigma$的正态分布
$$\phi$$ 标准正态分布的概率密度函数;激活函数
$$\Phi$$ 标准正态分布的累积分布函数

张量

张量用于表示多维数据的结构,标量是0维张量,向量是一维张量,矩阵是二维张量。张量的形状表示其在每个维度上面的大小。例如,一个形状为 ($2\times3$) 的矩阵表示有2行3列。

假设有一个三维张量 ( T ) 的形状为 ( (3, 4, 5) ),表示有3个层,每层有4行5列。可以通过以下方式提取二维切片:

  • 提取第一个层的切片:( T[0, :, :] ) 将返回一个形状为 ( (4, 5) ) 的二维切片。

  • 提取第二行的切片:( T[:, 1, :] ) 将返回一个形状为 ( (3, 5) ) 的二维切片。

  • 提取第三列的切片:( T[:, :, 2] ) 将返回一个形状为 ( (3, 4) ) 的二维切片。

矩阵转置

矩阵转置指的是将一个矩阵的行和列进行互换。矩阵转置操作具有如下性质:

  1. 双重转置:转置操作是可逆的,即 ( (A^T)^T = A )。

  2. 加法的转置:如果 ( A ) 和 ( B ) 是同型矩阵,则 ( (A + B)^T = A^T + B^T )。

  3. 乘法的转置:如果 ( A ) 是 ($m \times n$) 矩阵,( B ) 是 ( $n \times p$) 矩阵,则 ( (AB)^T = B^T A^T )。

  4. 标量乘法的转置:如果 ( c ) 是一个标量,则 ( (cA)^T = cA^T )。

导数

给定一个函数y=f(x),其导数的公式表示为:$\frac{dy}{dx}=\lim_{\Delta x \rightarrow 0}{\frac {f(x+\Delta x) - f(x)}{\Delta x}}$。

导数的性质

  1. 线性性:如果 ( y = ax + b ) 是一个线性函数,则导数是常数 ( a )。

  2. 常数法则:如果 ( y = c )(常数),则 ( $\frac{dy}{dx} = 0$ )。

  3. 幂法则:如果 ( y = x^n )(( n ) 为常数),则 ( $\frac{dy}{dx} = nx^{n-1}$)。

  4. 和差法则:如果 ( y = f(x) + g(x) ),则 ($\frac{dy}{dx} = \frac{df}{dx} + \frac{dg}{dx}$)。

  5. 乘法法则:如果 ( y = f(x)g(x) ),则 ($\frac{dy}{dx} = f(x)\frac{dg}{dx} + g(x)\frac{df}{dx}$)(莱布尼茨法则)。

  6. 链式法则:如果 ( y = f(g(x)) ),则 ( $\frac{dy}{dx} = \frac{df}{dg} \cdot \frac{dg}{dx}$ )。

导数的应用

导数在优化算法中起着关键作用,尤其是在训练模型时,通过计算损失函数的梯度(导数),梯度下降法可以找到损失函数的最小值。

偏导数

对于一个函数 f(x, y) ,偏导数表示函数相对于某一个变量的变化率,而其他变量保持不变。f对x的偏导数用公式可以表示为:$\frac{\partial f}{\partial x} = \lim_{\Delta x \rightarrow 0}{\frac{f( x + \Delta x, y) - f(x, y)}{\Delta x}}$。

梯度

梯度用于描述一个函数在各个方向上的变化率,假设$\mathbf{x} = (x_1, x_2, \ldots, x_n)$是一个 n 维向量,那么函数 f 对于向量 $\mathbf x$的梯度为:$\nabla f(\mathbf{x}) = (\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},\ldots, \frac{\partial f}{\partial x_n})$,在机器学习模型训练的过程中,梯度用于更新模型参数,以最小化损失函数。

条件独立

随机变量 a 和 b 关于随机变量 c 条件独立,表示在给定 c 的情况下,a 和 b 的联合分布等于它们各自的条件分布的乘积。其用公式表示为:$P(a,b∣c)=P(a∣c)⋅P(b∣c)$。

信息熵

信息熵 H(x) 衡量了随机变量 x 的不确定性。熵越高,表示随机变量的取值越不确定,所需的信息量也越大;熵越低,表示随机变量的取值越确定,所需的信息量也越小。其公式表示如下:

$H(x) = -\sum_{i=1}^{n}{p(x_i)log_2 p(x_i)}$

Sigmoid函数

Signmoid函数公式为:$\frac{1}{1+e^{-x}}$,该函数在笛卡尔坐标系中呈一条S曲线,该函数的输出结果值在0到1之间。

图片

范数

假设x是一个n维向量,那么x的$L^{p}$范数公式是:$$L^p = (\sum_{i=1}^{n}{x_i^p})^ \frac{1}{p}$$。在机器学习领域中,范数在在防止模型过拟合方面发挥着重要的作用。

正则化

正则化是机器学习领域中一种预防过拟合的手段,它可以提高模型的泛化能力。正则化通过在原来的损失函数中添加正则项来实现。

在机器学习模型中,变量的系数表示自变量对因变量的影响程度。通常情况下,系数的绝对值不应过大,因为这可能意味着模型对某些特征的过度依赖。

当系数过大时,模型可能会对训练数据中的噪声或异常值过于敏感。这种敏感性会导致模型在不同的数据集上表现不一致,从而使模型产生过拟合的现象。

我们可以使用L1范数和L2范数来实现正则化。

Lasso正则化就是在损失函数中加入L1正则项,其公式为:$$L= L_loss + \lambda\sum_{i=1}^{n}{|w_i|}$$,基于L1范数的正则化会使模型在训练的过程中将一些不重要的特征系数权重压缩为零,从而更好地帮助模型进行特征选择。

Ridage正则化则是在损失函数中加入L2正则项,其公式为:$$L=L_loss + \lambda\sum_{i=1}^{n}{w_i}^2$$。

参数向量

参数向量$\theta$是一组参数的集合,这些参数用于描述一个模型或函数。它们通常是模型的可调节部分,通过调整这些参数,可以改变模型的行为和输出。

机器学习的一个主要任务是从给定的输入 x 和输出 y 中找到参数向量$\theta$,使得模型 $f(x;\theta)$ 能够尽可能准确地预测 y。在获取最佳参数向量的过程中,我们会使用优化算法(例如:梯度下降法)和损失函数不断调整参数向量值。

卷积

卷积计算是机器学习领域常用的一种数学运算,卷积计算通常用来从图像数据中提取特征。如果一张图像中的数据被转换成一维向量输入到神经网络模型中,那么图像数据中的空间信息将会丢失。通过卷积计算提取图像中的特征则可以避免这个问题。

卷积计算过程主要涉及三个核心概念。

  • 卷积核:一个小的矩阵,用于从输入数据中提取特征。卷积核的大小、形状和数值决定了它可以捕捉的特征类型。

  • 滑动步长:卷积核在输入数据上滑动,每次移动一定的步长,每次滑动之后,卷积核与其覆盖的输入数据部分进行元素对应的乘积。

  • 特征图:特征图是卷积计算之后输出的矩阵。将卷积核与输入数据的每个覆盖区域进行元素乘积后,再求和,得到的单个数值构成了输出的特征图的一个元素。

假设x代表输入的图片,y代表输出的特征图,w代表卷积核,s代表滑动步长。

则相关卷积计算公式为:$y[i,j]=∑_{u,v}x[i+u+s-1,j+v+s-1]⋅w[u,v]$。

具体示例如下图所示:

图片

正态分布

正态分布(Normal Distribution)是一种重要的概率分布,广泛应用于统计学、自然科学、社会科学等多个领域。它的特点是数据在均值附近集中,随着离均值的距离增加,数据的概率逐渐减小。正态分布通常被描绘成一个钟形曲线。假设一个变量X服从参数为$\mu$和$\sigma$的正态分布,那么我们可以将其表示为:$X\sim N(\mu,\sigma)$。其中$\mu$表示均值,$\sigma$表示标准差。均值决定了正态分布的中心位置,标准差决定了数据的离散程度。对于正态分布,大约 68% 的数据落在均值的一个标准差以内,大约 95% 落在两个标准差以内,大约 99.7% 落在三个标准差以内。在机器学习领域中,很多机器学习算法都会假设数据符合正态分布。

概率密度函数

概率密度函数(Probability Density Function, PDF)是描述连续随机变量概率分布的函数。它用于表示随机变量在某个特定取值附近的概率密度。需要注意的是,概率密度并不等同于概率,在某个单位区间内,概率密度是可能大于1的,但是在该区间内的概率值却是不可能大于1的。假设随机变量X的分布符合概率密度函数f(x),那么函数f(x)具有以下特性:

  1. 非负性:对于所有的x,$f(x) \geq 0$

  2. 归一化:整个概率密度函数的积分等于1,即:$\int_{-\infty}^{+\infty}f(x)d(x)=1$

对于某个区间[a, b],随机变量x落在该区间内的概率可以通过积分计算:$P(a\leq x \leq b) = \int_{a}^{b}f(x)d(x)$

对于正态分布来讲,其概率密度函数为:$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$,其中,μ 是均值,σ 是标准差。

总结

本文介绍了一些机器学习领域常见的数学符号及其含义,在某些文章中这些数学符号可能有不同的含义。

相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
188 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
3月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
8月前
|
机器学习/深度学习 自然语言处理 算法
|
5月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
112 2
|
5月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
980 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
98 3
|
5月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
639 0
|
7月前
|
机器学习/深度学习 人工智能 算法
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
97 3
|
7月前
|
机器学习/深度学习 数据采集 人工智能
机器学习基础概念与初步探索
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。作为人工智能的核心,机器学习是使计算机具有智能的根本途径。未来的机器学习将具有更高的自动化水平,能够处理更加复杂和抽象的问题,为人类带来更多的便利和价值。
54 2
|
7月前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
46 0