深度学习500问——Chapter01：数学基础-阿里云开发者社区

前言

深度学习通常又需要哪些数学基础？深度学习里的数学到底难在哪里？通常初学者都会有这些问题，在网络推荐及书本的推荐里，经常看到会列出一系列数学科目，比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性，但实际上按照这样的知识范围来学习，学习成本会很久，而且会很枯燥。本章我们通过选举一些数学基础里容易混肴的一些概念作以介绍，帮助大家更好的理清这些易混肴概念之间的关系。

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量（scalar）

一个标量表示一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组）。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量（vector）

一个向量表示一组有序排列的数。通过次序中的索引，我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称，比如xx。向量中的元素可以通过带脚标的斜体表示。向量X是第一个元素是X1，第二个元素是X2，以此类推。我们也会注明存储在向量中的元素的类型（实数、虚数等）。

矩阵（matrix）

矩阵是具有相同特征和纬度的对象的集合，表现为一张二维数据表。其意义是一个对象表示为矩阵的一行，一个特征表示为矩阵的一列，每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称，比如A。

张量（tensor）

在某些情况下，我们会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则网格中，我们将其称之为张量。使用A来表示“A”。张量A中坐标为(i,j,k)的元素记作。(�,�,�)的元素记作$A(i,j,k)$

标量是0阶张量，向量是1阶张量。举例：

标量就是知道棍子的长度，但是你不会知道棍子指向哪儿。

向量就是不但知道棍子的长度，还知道棍子指向前面还是后面。

张量就是不但知道棍子的长度，也知道棍子指向前面还是后面，还能知道这棍子又向上/下和左/右偏转了多少。

1.1.2 张量与矩阵的区别

从代数角度讲，矩阵它是向量的推广。向量可以看成一维的“表格”（即分量按照顺序排成一排），矩阵是二维的“表格”（分量按照纵横位置排列），那么n阶张量就是所谓的n维“表格”。张量的严格定义是利用线性映射来描述。
从几何角度讲，矩阵是一个真正的几何量，也就是说，它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
张量可以用3×3矩阵形式来表达。
表示标量的数和表示向量的三维数组也可分别看作1×1，1×3的矩阵。

1.1.3 矩阵和向量相乘结果

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义

导数（derivative）代表了在自变量变化趋于无穷小的时候，函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的（瞬时）变化率。

注意：在一元函数中，只有一个自变量变动，也就是说只存在一个方向的变化率，这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有：

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率分布

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。

概率论在机器学习中扮演着一个核心角色，因为i机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。