自动微分(AutoDiff)的原理

简介: 求偏微分,可以选择的方法有:手工微分(manual differentiation)、符号微分(symbolic differentiation)、数值微分(numerical differentiation)、前向自动微分(forward-mode autodiff)和反向自动微分(reverse-mode autodiff)。

自动微分(AutoDiff)的原理

1/ 各种自动微分的优缺点1

机器学习的一个重要的任务,就是对参数求导得到损失函数对于每个参数的偏导数,然后进行梯度下降。

而求偏微分,可以选择的方法有:手工微分(manual differentiation)、符号微分(symbolic differentiation)、数值微分(numerical differentiation)、前向自动微分(forward-mode autodiff)和反向自动微分(reverse-mode autodiff)。

而在 Julia 的 Flux 包里和 Tensorflow 一样,就是使用的反向自动微分。

手工微分:手工微分对于复杂的函数,会变得非常繁琐,容易出错

符号微分:利用计算图来处理。但是对于复杂的函数,会出现计算图十分巨大的,降低性能,而一个最大的缺点就是,符号微分无法处理任意编码的函数。

数值微分:数值微分根据公式:

$$ \begin{aligned} h^{\prime}(x)&=\lim_{x\rightarrow x_0}\frac{h(x)-h(x_0)}{x-x_0}\\ &=\lim_{\epsilon\rightarrow 0}\frac{h(x_0+\epsilon)-h(x_0)}{\epsilon} \end{aligned} $$

要计算函数 $f(x_1,x_2,\cdots,x_n)$ 在某个点关于 $x_i$ 的偏导数,只需要计算当 $\epsilon$ 很小的时候 $f(x_1,x_2,\cdots,x_i-\epsilon,\cdots,x_n)$ 处以 $\epsilon$ 的商。

不过数值微分的缺点就是,结果并不准确,是一种近似,并且会重复调用函数 $f(x)$ 很多次,在机器学习参数很多的情况下,会变得很低效。但是由于数值微分很容易执行,它可以作为一个检查其他算法是否正确的有用工具。

前向自动微分:虽然既不是符号微分也不是数值微分,但是在某些方面,前向自动微分是符号微分和数值微分的结合。

前向自动微分依赖于 dual number,形式为 $a+b\epsilon$,其中 $a,b$ 是两个是两个实数,$\epsilon$ 是一个无穷小的数字。dual number 在存储的时候,用一对浮点数表示,例如 $42+24\epsilon$ 用 $(42,0,24.0)$ 表示。

对于 dual number 的基本运算如下:(注意 $\epsilon^2=0$)

$$ \begin{aligned} \lambda(a+b\epsilon)&=\lambda a+\lambda b\epsilon\\ (a+b\epsilon)+(c+d\epsilon)&=(a+c)+(b+d)\epsilon\\ (a+b\epsilon)\times(c+d\epsilon)&=ac+(ad+bd)\epsilon+(bd)\epsilon^2\\ &=ac+(ad+bc)\epsilon \end{aligned} $$

更为重要的是 $h(a+b\epsilon)=h(a)+b\times h^{\prime}(a)\epsilon$,所以当我们计算 $h(a+\epsilon)$ 的时候,可以一次给出 $h(a)$ 和 $h^{\prime}(a)$.

假如函数 $f(x,y)=x^2y+y+2$,我们要计算关于 $x$ 的偏导数,需要做的就是计算 $f(3+\epsilon,4)$,结果为一个 dual number $42+24\epsilon$,那么就可以得到 $f(3,4)=42$ 并且偏导数 $\partial_xf(3,4)=24$

前向自动微分的缺点就是,穿过一次图,只能计算一个参数的偏导数,虽然结果精确,但是对于多个参数的时候,要穿过很多次图。

反向自动微分:正向穿过图来计算每个节点的值,然后第二次反向穿过图,计算所有的偏导数。

反向自动微分(Reverse-mode autodiff)依赖于链式法则:$\frac{\partial f}{\partial x}=\frac{\partial f}{\partial n_i}\times \frac{\partial n_i}{\partial x}$.

自动微分认为,任何数值计算的本质其实是一系列可微分算子的组合。那么,我们就可以假设我们求不出这个函数的导数,但是将该函数拆解成为其他子部分后,子部分可以通过常规的求导方式得到,最终将每个子部分进行组合,就得到了最终的结果。2

目录
相关文章
|
3月前
|
机器学习/深度学习 存储 缓存
阿里云服务器企业级实例选购攻略:八代/九代/倚天实例性能、场景、选型参考
2025年阿里云活动中适合企业用户的云服务器实例规格主要为通用算力型u1、计算型c8i、计算型c9i、计算型c8y、通用型g8i、通用型g9i、通用型g8y、内存型r9i、内存型r8y等实例。本文为大家介绍这些实例规格的性能、场景以及选型参考。
|
负载均衡 NoSQL Java
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch 中的动态图与静态图:理解它们的区别及其应用场景
【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。
2900 0
|
域名解析 Linux Shell
CentOS 7 执行 yum 命令失败问题的排查方法
本文主要为大家讲解CentOS 7系统中执行yum命令失败等常见问题的排查方法。
5150 0
CentOS 7 执行 yum 命令失败问题的排查方法
SVN的下载与安装
SVN的官网地址:https://tortoisesvn.net/ SVN百度云下载地址:https://pan.baidu.com/s/1c2Mm4BQ SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS、CVS,它采用了分支管理系统,它的设计目标就是取代CVS。
2096 0
|
10月前
|
程序员
什么是后门
后门( Back Door )是指一种绕过安全性控制而获取对程序或系统访问权的方法。在软件的开发阶段,程序员常会在软件内创建后门以便可以修改程序中的缺陷。如果后门被其他人知道,或是在发布软件之前没有删除,那么它就成了安全隐患。
|
6月前
|
存储 人工智能 测试技术
DeepWiki:告别迷茫!AI轻松解析Github代码库
DeepWiki 的核心目标是帮助开发者快速理解复杂的代码仓库。无论是公共仓库还是私有项目,它都可以通过简单的操作生成类似 Wikipedia 的文档页面。
|
12月前
|
机器学习/深度学习 算法
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
|
11月前
|
消息中间件 数据库
RabbitMQ启动报错:Error during startup: {error, {schema_integrity_check_failed,
通过上述步骤,可以逐步排查和解决RabbitMQ启动时出现的 `Error during startup: {error, {schema_integrity_check_failed, ...}}`错误。这些步骤包括检查磁盘空间、修复文件权限、清理Mnesia数据库、检查日志文件以及升级或重装RabbitMQ。希望这些方法能帮助您解决问题,使RabbitMQ顺利启动并正常运行。
757 1
|
Ubuntu Oracle 关系型数据库
Oracle VM VirtualBox之Ubuntu 22.04LTS双网卡网络模式配置
这篇文章是关于如何在Oracle VM VirtualBox中配置Ubuntu 22.04LTS虚拟机双网卡网络模式的详细指南,包括VirtualBox网络概述、双网卡网络模式的配置步骤以及Ubuntu系统网络配置。
1422 3