水很深的深度学习-Task01深度学习概述与数学基础

简介: 人工智能分类:强人工智能、弱人工智能、超级人工智能机器学习分类:有监督学习、无监督学习、强化学习

1 人工智能与机器学习


人工智能分类:强人工智能、弱人工智能、超级人工智能

机器学习分类:有监督学习、无监督学习、强化学习


人工智能,机器学习和深度学习的关系如下图所示:

image.png

1.2 起源与发展

image.png

第1阶段:提出MP神经元模型、感知器、ADLINE神经网络,并指出感知器只能解决简单的线性分类任务,无法解决XOR简单分类问题

第2阶段:提出Hopfiled神经网络、误差反向传播算法、CNN

第3阶段:提出深度学习概念,在语音识别、图像识别的应用

1.3 深度学习定义与分类

定义:采用多层网络结构对未知数据进行分类或回归

分类:

有监督学习:深度前馈网络、卷积神经网络、循环神经网络等

无监督学习:深度信念网、深度玻尔兹曼机、深度自编码器等

1.4 主要应用

图像处理领域:图像分类、物体检测、图像分割、图像回归

语音识别领域:语音识别、声纹识别、语音合成

自然语音处理领域:语言模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理

综合应用:图像描述、可视回答、图像生成、视频生成


2 深度学习数学基础


主要涵盖四个部分:矩阵论,概率统计,信息论,和最优化估计。


2.1 矩阵论

张量:标量是0阶张量,矢量是1阶张量,矩阵是2阶张量,三维及以上数组称为张量

矩阵的秩(Rank):矩阵向量中的极大线性无关组的数目

矩阵的逆:

奇异矩阵:rank(A_{n×n})

非奇异矩阵:rank(A_{n×n})=nrank(An×n)=n

广义逆矩阵:如果存在矩阵BB使得ABA=AABA=A,则称BB为AA的广义逆矩阵

矩阵分解:

特征分解:A = U\Sigma U^{T}A=UΣUT

奇异值分解:A = U \Sigma V^{T}A=UΣVT、U^T U = V^T V = IUTU=VTV=I

2.2 概率统计

随机变量:

分类:离散随机变量、连续随机变量

概念:用概率分布来指定它的每个状态的可能性

常见的随机变量的概率分布如下:

离散型随机变量

5ae64c68fd751a5fa7af1f80c22c8e11_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_20,color_FFFFFF,t_70,g_se,x_16.png

连续型随机变量

f112a74e98ebe3adca43b6c3c1c6744a_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_20,color_FFFFFF,t_70,g_se,x_16.png

多个变量时,概率分布会有不同

条件概率

1cdb5280012aa7896f9f4a3a1247ab19_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_20,color_FFFFFF,t_70,g_se,x_16.png

联合概率

68888405632017dc61bd47a7ce32a3b6_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_20,color_FFFFFF,t_70,g_se,x_16.png

先验概率

后验概率

全概率公式

贝叶斯公式

910fd400908578069db4244852264c5f_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_12,color_FFFFFF,t_70,g_se,x_16.png

常用统计量为

方差ba7ed3a166da39c2969bfa133c16a7e7_watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAU2hlbHRvblhpYW8=,size_20,color_FFFFFF,t_70,g_se,x_16.png

协方差

29979e531329f3dd9e5785d0b464761e_ac945ed19a7849fcaa50ba8d3a2ab224.png


2.3 信息论

熵:样本集纯度指标,或样本集报班的平均信息量


H(X) = - \sum_{i = 1}^n P(x_i) \log_2 P(x_i)H(X)=−i=1∑nP(xi)log2P(xi)

联合熵:度量二维随机变量XYXY的不确定性

H(X, Y) = -\sum_{i = 1}^n \sum_{j = 1}^n P(x_i, y_j) \log_2 P(x_i, y_j)H(X,Y)=−i=1∑nj=1∑nP(xi,yj)log2P(xi,yj)

条件熵:

image.png

H(Y∣X)=i=1∑nP(xi)H(Y∣X=xi)=−i=1∑nP(xi)j=1∑nP(yj∣xi)log2P(yj∣xi)=−i=1∑nj=1∑nP(xi,yj)log2P(yj∣xi)

互信息:

I(X;Y) = H(X)+H(Y)-H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)

相对熵:又称KL散度,描述两个概率分布PP和QQ差异,用概率分布QQ拟合真实分布PP时,产生的信息表达损耗

离散形式:\displaystyle D(P||Q) = \sum P(x)\log \frac{P(x)}{Q(x)}D(P∣∣Q)=∑P(x)logQ(x)P(x)

连续形式:\displaystyle D(P||Q) = \int P(x)\log \frac{P(x)}{Q(x)}D(P∣∣Q)=∫P(x)logQ(x)P(x)

交叉熵:目标与预测值之间的差距

image.png

D(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))−∑P(x)logQ(x)


2.4 最优化估计

最小二乘估计:采用最小化误差的平方和,用于回归问题。

最小二乘估计又称最小平方法,是一种数学优化方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法经常应用于回归问题,可以方便地求得未知参数,比如曲线拟合、最小化能量或者最大化熵等问题。

线性代数

标量(scalar):一个标量就是一个单独的数。

向量(vector):一个向量是一列数。

矩阵(matrix):矩阵是一个二维数组,其中的每一个元素被两个索引所确定。

张量(tensor):一个数组中的元素分布在若干维坐标的规则网络中,称之为张量。

转置(transpose):矩阵的转置是以主对角线为轴的镜像。

单位矩阵(identity matrix):所有沿主对角线的元素都是1,所有其他位置的元素都是0.

对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是0。

正交矩阵(orthogonal matrix):行向量和列向量分别标准正交的方阵。

正定(positive definite):矩阵所有特征值都是正数。

半正定(positive semidefinite):矩阵所有特征值都是非负数。

负定(negative definite):矩阵所有特征值都是负数。

半负定(negative semidefinite):矩阵所有特征值都是非正数。

矩阵的秩(rank):矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩,通常记作rank(A)。

目录
相关文章
|
18天前
|
机器学习/深度学习 算法 安全
从方向导数到梯度:深度学习中的关键数学概念详解
方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。
68 36
从方向导数到梯度:深度学习中的关键数学概念详解
|
2月前
|
机器学习/深度学习 存储 自然语言处理
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
|
2月前
|
机器学习/深度学习 PyTorch API
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】深度学习的概述及应用,附带代码示例
深度学习(Deep Learning,简称DL)是机器学习领域中的一个重要分支,其目标是通过模拟人脑神经网络的工作机制,构建多层次的抽象特征表示,使机器能够自动从原始数据中提取关键信息,从而实现高精度的任务执行。深度学习通过多层神经网络结构及其训练方式,实现了从低级像素级别到高级概念级别的递进式知识层次。 深度学习的主要组件包括输入层、隐藏层和输出层。隐藏层的数量和层数决定了模型的复杂度和表达能力。在训练过程中,权重更新和梯度下降法是关键步骤,目的是最小化损失函数,提高预测精度。深度学习主要基于反向传播算法(BP Algorithm)来优化模型参数,通过正向传播、损失计算、反向传播和梯度下降等
215 8
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
127 1
|
7月前
|
机器学习/深度学习 存储 人工智能
深度学习500问——Chapter01:数学基础
深度学习500问——Chapter01:数学基础
102 0
深度学习500问——Chapter01:数学基础
|
7月前
|
机器学习/深度学习 PyTorch TensorFlow
【TensorFlow】深度学习框架概述&TensorFlow环境配置
【1月更文挑战第26天】【TensorFlow】深度学习框架概述&TensorFlow环境配置
|
7月前
|
机器学习/深度学习 分布式计算 搜索推荐
深度学习入门:一篇概述深度学习的文章
深度学习入门:一篇概述深度学习的文章
|
机器学习/深度学习 索引
深度学习基础:标量、向量、矩阵、张量
深度学习基础:标量、向量、矩阵、张量
972 0
深度学习基础:标量、向量、矩阵、张量
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习概述(二)
深度学习概述(二)
111 0