自动微分(AutoDiff)的原理

简介: 求偏微分,可以选择的方法有:手工微分(manual differentiation)、符号微分(symbolic differentiation)、数值微分(numerical differentiation)、前向自动微分(forward-mode autodiff)和反向自动微分(reverse-mode autodiff)。

自动微分(AutoDiff)的原理

1/ 各种自动微分的优缺点1

机器学习的一个重要的任务,就是对参数求导得到损失函数对于每个参数的偏导数,然后进行梯度下降。

而求偏微分,可以选择的方法有:手工微分(manual differentiation)、符号微分(symbolic differentiation)、数值微分(numerical differentiation)、前向自动微分(forward-mode autodiff)和反向自动微分(reverse-mode autodiff)。

而在 Julia 的 Flux 包里和 Tensorflow 一样,就是使用的反向自动微分。

手工微分:手工微分对于复杂的函数,会变得非常繁琐,容易出错

符号微分:利用计算图来处理。但是对于复杂的函数,会出现计算图十分巨大的,降低性能,而一个最大的缺点就是,符号微分无法处理任意编码的函数。

数值微分:数值微分根据公式:

$$ \begin{aligned} h^{\prime}(x)&=\lim_{x\rightarrow x_0}\frac{h(x)-h(x_0)}{x-x_0}\\ &=\lim_{\epsilon\rightarrow 0}\frac{h(x_0+\epsilon)-h(x_0)}{\epsilon} \end{aligned} $$

要计算函数 $f(x_1,x_2,\cdots,x_n)$ 在某个点关于 $x_i$ 的偏导数,只需要计算当 $\epsilon$ 很小的时候 $f(x_1,x_2,\cdots,x_i-\epsilon,\cdots,x_n)$ 处以 $\epsilon$ 的商。

不过数值微分的缺点就是,结果并不准确,是一种近似,并且会重复调用函数 $f(x)$ 很多次,在机器学习参数很多的情况下,会变得很低效。但是由于数值微分很容易执行,它可以作为一个检查其他算法是否正确的有用工具。

前向自动微分:虽然既不是符号微分也不是数值微分,但是在某些方面,前向自动微分是符号微分和数值微分的结合。

前向自动微分依赖于 dual number,形式为 $a+b\epsilon$,其中 $a,b$ 是两个是两个实数,$\epsilon$ 是一个无穷小的数字。dual number 在存储的时候,用一对浮点数表示,例如 $42+24\epsilon$ 用 $(42,0,24.0)$ 表示。

对于 dual number 的基本运算如下:(注意 $\epsilon^2=0$)

$$ \begin{aligned} \lambda(a+b\epsilon)&=\lambda a+\lambda b\epsilon\\ (a+b\epsilon)+(c+d\epsilon)&=(a+c)+(b+d)\epsilon\\ (a+b\epsilon)\times(c+d\epsilon)&=ac+(ad+bd)\epsilon+(bd)\epsilon^2\\ &=ac+(ad+bc)\epsilon \end{aligned} $$

更为重要的是 $h(a+b\epsilon)=h(a)+b\times h^{\prime}(a)\epsilon$,所以当我们计算 $h(a+\epsilon)$ 的时候,可以一次给出 $h(a)$ 和 $h^{\prime}(a)$.

假如函数 $f(x,y)=x^2y+y+2$,我们要计算关于 $x$ 的偏导数,需要做的就是计算 $f(3+\epsilon,4)$,结果为一个 dual number $42+24\epsilon$,那么就可以得到 $f(3,4)=42$ 并且偏导数 $\partial_xf(3,4)=24$

前向自动微分的缺点就是,穿过一次图,只能计算一个参数的偏导数,虽然结果精确,但是对于多个参数的时候,要穿过很多次图。

反向自动微分:正向穿过图来计算每个节点的值,然后第二次反向穿过图,计算所有的偏导数。

反向自动微分(Reverse-mode autodiff)依赖于链式法则:$\frac{\partial f}{\partial x}=\frac{\partial f}{\partial n_i}\times \frac{\partial n_i}{\partial x}$.

自动微分认为,任何数值计算的本质其实是一系列可微分算子的组合。那么,我们就可以假设我们求不出这个函数的导数,但是将该函数拆解成为其他子部分后,子部分可以通过常规的求导方式得到,最终将每个子部分进行组合,就得到了最终的结果。2

目录
相关文章
|
7月前
|
机器学习/深度学习 算法 PyTorch
Pytorch自动求导机制详解
在深度学习中,我们通常需要训练一个模型来最小化损失函数。这个过程可以通过梯度下降等优化算法来实现。梯度是函数在某一点上的变化率,可以告诉我们如何调整模型的参数以使损失函数最小化。自动求导是一种计算梯度的技术,它允许我们在定义模型时不需要手动推导梯度计算公式。PyTorch 提供了自动求导的功能,使得梯度的计算变得非常简单和高效。
149 0
|
7月前
|
SQL 开发框架 算法
【MFAC】基于偏格式动态线性化的无模型自适应控制
【MFAC】基于偏格式动态线性化的无模型自适应控制
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
自动微分
【10月更文挑战第02天】
27 4
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
探索PyTorch:自动微分模块
探索PyTorch:自动微分模块
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch中的自动微分机制:深入理解反向传播
【8月更文第27天】PyTorch 是一个强大的机器学习框架,它因其灵活性和易用性而受到广泛欢迎。其中一个关键特性就是它的自动微分机制,这个机制使得 PyTorch 能够自动计算任何张量操作的梯度,这对于训练深度学习模型至关重要。本文将详细介绍 PyTorch 中自动微分机制的工作原理,并通过具体的代码示例来展示如何使用这一机制来实现反向传播。
297 1
|
6月前
|
机器学习/深度学习 存储 PyTorch
Pytorch-自动微分模块
PyTorch的torch.autograd模块提供了自动微分功能,用于深度学习中的梯度计算。它包括自定义操作的函数、构建计算图、数值梯度检查、错误检测模式和梯度模式设置等组件。张量通过设置`requires_grad=True`来追踪计算,`backward()`用于反向传播计算梯度,`grad`属性存储张量的梯度。示例展示了如何计算标量和向量张量的梯度,并通过`torch.no_grad()`等方法控制梯度计算。在优化过程中,梯度用于更新模型参数。注意,使用numpy转换要求先`detach()`以避免影响计算图。
|
7月前
|
机器学习/深度学习 算法 PyTorch
深入理解PyTorch自动微分:反向传播原理与实现
【4月更文挑战第17天】本文深入解析PyTorch的自动微分机制,重点讨论反向传播的原理和实现。反向传播利用链式法则计算神经网络的梯度,包括前向传播、梯度计算、反向传播及参数更新。PyTorch通过`autograd`模块实现自动微分,使用`Tensor`和计算图记录操作历史以自动计算梯度。通过示例展示了如何在PyTorch中创建张量、定义计算过程及求梯度。掌握这些有助于提升深度学习模型的训练效率。
|
7月前
|
算法
【MFAC】基于紧格式动态线性化的无模型自适应迭代学习控制
【MFAC】基于紧格式动态线性化的无模型自适应迭代学习控制
【MFAC】基于紧格式动态线性化的无模型自适应迭代学习控制
|
机器学习/深度学习 传感器 算法
基于微分 Vaiana Rosati 模型对 SDF 速率无关迟滞系统进行非线性时程分析的 Matlab 代码
基于微分 Vaiana Rosati 模型对 SDF 速率无关迟滞系统进行非线性时程分析的 Matlab 代码
|
机器学习/深度学习 算法 计算机视觉
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
177 0