前言
深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本的推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥。本章我们通过选举一些数学基础里容易混肴的一些概念作以介绍,帮助大家更好的理清这些易混肴概念之间的关系。
1.1 向量和矩阵
1.1.1 标量、向量、矩阵、张量之间的联系
标量(scalar)
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
向量(vector)
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量X是第一个元素是X1,第二个元素是X2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
矩阵(matrix)
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵的一行,一个特征表示为矩阵的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如A。
张量(tensor)
在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用A来表示“A”。张量A中坐标为(i,j,k)的元素记作 。(�,�,�)的元素记作$A(i,j,k)$
标量是0阶张量,向量是1阶张量。举例:
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。
1.1.2 张量与矩阵的区别
- 从代数角度讲,矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排),矩阵是二维的“表格”(分量按照纵横位置排列),那么n阶张量就是所谓的n维“表格”。张量的严格定义是利用线性映射来描述。
- 从几何角度讲,矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
- 张量可以用3×3矩阵形式来表达。
- 表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。
1.1.3 矩阵和向量相乘结果
1.2 导数和偏导数
1.2.1 导数偏导计算
导数定义
导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有:
1.4 概率分布与随机变量
1.4.1 机器学习为什么要使用概率分布
事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色,因为i机器学习算法的设计通常依赖于对数据的概率假设。
例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。
1.4.2 变量与随机变量有什么区别
随机变量(random variable)
表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
变量与随机变量的区别:
当变量的取值的概率不是1时,变量就成了随机变量;
当随机变量取值的概率为1时,随机变量就变成了变量。
比如:
当变量x值为100的概率为1的话,那么x=100 就是确定了的,不会再有变化,除非有进一步运算. 当变量x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。
1.4.3 随机变量与概率分布的联系
一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能是状态的可能性大小的方法,就是概率分布(probability distribution)。
随机变量可以分为离散型随机变量和连续性随机变量。
相应的描述其概率分布的函数是:
概率质量函数(Probability Mass Function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。
概率密度函数(Probability Density Function,PDF):描述连续型随机变量的概率分布,通常用小写字母p表示。
1.4.4 离散型随机变量和概率质量函数
PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
1.4.5 连续型随机变量和概率密度函数
如果一个函数p是随机变量x的PDF,那么它必须满足如下三个条件:
1.4.6 举例理解条件概率
图1.1 条件概率文氏图示意
1.4.7 联合概率与边缘概率联系区别
区别:
任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。
1.4.9 独立性和条件独立性
1.5 常见概率分布
1.5.1 Bernoulli 分布
补充二项分布、多项分布:
二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。
1.5.2 高斯分布
1.5.3 何时采用正态分布
问:何时采用正态分布?答:缺乏实数上分布的先验知识,不知选择何种形式时,默认选择正态分布总是不会错的,理由如下:
- 中心极限定理告诉我们,很多独立随机变量均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解。
- 正态分布是具有相同方差的所有概率分布中,不确定性最大的分布,换句话说,正态分布是对模型加入先验知识最少的分布。
1.5.4 指数分布
1.5.6 Dirac 分布和经验分布
当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源。
适用范围:狄拉克δ�函数适合对连续性随机变量的经验分布。
1.6 期望、方差、协方差、相关系数
1.6.1 期望
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
1.6.2 方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:
1.6.3 协方差
协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为:
1.6.4 相关系数
相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
相关系数的性质:
(1)有界性。相关系数的取值范围是[-1,1],可以看成无量纲的协方差。
(2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强。当为0时,表示两个变量没有相关性。
参考文献
[1]Ian,Goodfellow,Yoshua,Bengio,Aaron...深度学习[M],人民邮电出版,2017
[2]周志华.机器学习[M].清华大学出版社,2016.
[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.
[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008