Certigrad——随机计算图优化系统

简介: Certigrad是一种概念证明,它是用于开发机器学习系统的一个新途径。

更多深度文章,请关注:https://yq.aliyun.com/cloud


Certigrad是一种新的开源的随机计算图优化系统,它是用于开发机器学习系统的一个新途径。其中包含以下组件:

  • 应用本身
  • 基础数据库
  • 应用在数学上所需求的形式化描述
  • 应用满足其形式化描述的机器可测证明

具体来说,Certigrad是一个优化的随机计算图形系统,我们使用Lean Theorem Prover验证系统,最终证明了在基础数学上是正确的。

背景:随机计算图

随机计算图扩展了像TensorFlow和Theano这样的系统的计算图,它允许节点表示随机变量,并通过定义损失函数来表示叶节点和图中所有随机选择的总和的期望值。Certigrad允许用户从我们提供的原语中构造任意的随机计算图。该系统的主要目的是采用一个描述随机计算图的程序,并运行随机算法(随机反向传播),同时期望对参数的损失函数的梯度进行采样。

正确性

随机算法

这是定理详述,并证明了我们的随机反向传播的实现是正确的:

https://github.com/dselsam/certigrad/blob/master/src/certigrad/backprop_correct.lean#L13-L25

通俗地说,它表示,对于任意的随机计算图, backprop计算一个张量的向量,使得这个向量的每个元素都是一个随机变量,(在期望中)等于这个参数的期望损失的梯度。

更通俗地说,∇ E[loss(graph)] = E[backprop(graph)].

优化验证

我们还实现了两个随机计算图形转换,一个是对图形进行“重新参数化”,使得随机变量不再直接依赖于一个参数,另一个是将多元各向同性高斯分布的kl散度整合起来。

https://github.com/dselsam/certigrad/blob/master/src/certigrad/kl.lean#L79-L90

https://github.com/dselsam/certigrad/blob/master/src/certigrad/reparam.lean#L70-L79

Certigrad项目的性能验证

Certigrad还包括构建随机计算图的前端语法。下面是一个示例程序,它描述了一个简单的变分自动编码器:

https://github.com/dselsam/certigrad/blob/master/src/certigrad/aevb/prog.lean#L16-L38

我们证明上述两个经过认证的优化非常符合原始自动编码器的顺序:

https://github.com/dselsam/certigrad/blob/master/src/certigrad/aevb/transformations.lean#L52-L57

我们还证明了反向传播将正确地工作于结果模型,也就是说它满足了所有必要的前提条件:

https://github.com/dselsam/certigrad/blob/master/src/certigrad/aevb/grads_correct.lean#L20-L27

形式证明

在证明定理的过程中,Lean构建了一个正式的证明证书,可以通过一个小型的独立可执行程序自动验证,其可靠性基于将精益核心逻辑嵌入到集合理论中的良好的元理论参数,其实施得到了许多开发商的严密审查。因此,没有人需要能够理解为什么一个证明是正确的,以便相信它是正确的。

问题

我们的证明采用了一个非常高的标准,但是有一些方法证明了Certigrad没有达到纯粹的理想。

  • 我们对数学基础进行了理论化,而不是从最初的原理来构造它。
  • 尽管我们的正确性定理只适用于无限精度实数,但我们必须用浮点数执行。
  • 为了性能,我们在运行时用对Eigen的调用来替换原始的张量操作。
  • 系统在虚拟机中执行,虚拟机的设计不像核心逻辑的验证检查器那样值得信赖。

性能

可证明的正确性不必以计算效率为代价:证明只需检查一次,并且不引入任何持续的成本或运行时开销。尽管我们在这项工作中验证的算法缺乏很多优化,但大多数时间训练机器学习系统都是用矩阵来做的,而且我们可以通过与矩阵运算(Eigen)的优化库连接来实现竞争性能。我们使用ADAM在MNIST上训练了一个自动编码变异贝叶斯(AEVB)模型,发现我们的性能与TensorFlow(在CPU上)具有竞争力。

我们有一个脚本,可以在MNIST上用ADAM来训练AEVB。

https://github.com/dselsam/certigrad/blob/master/src/certigrad/aevb/mnist.lean#L44-L66

优点

尽管我们的方法引入了许多新的挑战,但它也带来了实质性的好处。

调试

首先,我们的方法论提供了一种系统地调试机器学习系统的方法。

实现错误在机器学习系统中很难发现,更不用说进行本地化和地址处理了,因为还有许多其他潜在的不需要的行为。例如,一个实施的错误可能导致不正确的梯度,从而导致学习算法停滞,但是这样的症状也可能是由于训练数据中的噪声,模型选择不当,不利的优化环境,不适当的搜索策略,或数值不稳定。这些其他问题是如此普遍,以至于人们常常认为任何不想要的行为都是由其中一个原因引起的。因此,实际的实现错误可以在不检测的情况下无限期地存在。在随机程序中,错误更难以检测,因为一些错误可能只会扭曲随机变量的分布并且可能需要编写自定义的统计测试来检测。

使用我们的方法论,正式的规范可以被用于在逻辑层次上进行详尽地测试和调试机器学习系统,而不需要借助于经验性的测试。验证该规范的过程将暴露所有的实现错误、疏忽和隐藏的假设。一旦它被证明了,每个感兴趣的人都可以确信,实现是正确的,而不需要信任任何涉及的人或者理解程序是如何工作的。

合成

其次,我们的方法论可以使实现的某些部分自动合成。

然而使用现状方法,编译器不知道程序应该做什么,因此只能捕获表面的语法错误,用我们的方法论,这个定理证明了程序应该做什么,并且能够提供更多有用的帮助。作为一个简单的例子,假设我们要将一个2层MLP编译成一个单一的原始运算符,以避免运行时图形处理的开销。通常这涉及到手工推导复合函数的梯度。然而,由于在我们的方法论中,定理证明者知道基础数学,包括相关的梯度规则和张量的代数性质,它可以帮助推导出新算子的梯度。

合成的可能性不仅仅是自动化代数推导。在开发Certigrad时,我们开始证明该规范在实施系统的困难部分之前已经被使用,并且使用所产生的证明义务来帮助确定程序需要做什么。正式的规范,以及最终的正确性的机器可校验的证明,使我们能够正确地实施系统,而无需对系统为什么正确的一致而全局的理解。事实上,我们主要把这一重担转移到电脑上。

积极优化

第三,我们的方法论可能使安全自动化比其他方法更积极的转换。例如,我们可以编写一个程序,搜索一个可以被分析的随机计算图的组成部分,它利用了大型积分恒等式库,以及人类无法手动模拟的过程方法。这样的过程可能能够在许多模型上实现超人为差异减少,但可能非常难以可靠地实现;如果该过程能够为给定的变换生成一个机器可检查的证书,那么不管过程本身的复杂性如何,这个转换都可以被信任。

文档

第四,一个正式的规范(即使没有正式的证明)可以作为一个系统的精确文档,并且可以让我们更容易地理解代码的各个部分,在不同的地方所假定的先决条件,以及不变量的维护。这种精确的文档对于任何软件系统都是有用的,但是对于机器学习系统尤其有用,因为不是所有的开发人员都有必要的数学知识来填补非正式描述的空白。

渐进性

我们的方法论对于高保证系统来说可能已经很经济了,但是仍然有许多工作要做,以使它在主流的开发中变得实用,而正确性仅仅是“可选的”。然而,我们的方法论的一个关键方面是它可以被逐步采用。你可以只写一小段代码,然后简单地包装和公理化(就像我们对Eigen做的那样)。你也可以编写浅层的正确性,并且只证明其中的一些属性是成立的。我们希望随着时间的推移,随着工具的成熟,开发人员将会发现,进一步追求我们的方法论是值得的,并且能够收获更多的好处。

搭建Certigrad

Lean仍然在开发中,而外部功能接口(FFI)还没有被移植到主分支。我们复制Lean项目以添加C ++代码来将Eigen加入到Lean的虚拟机中,但是,一旦FFI被发布,我们将把Certigrad移植到Lean主分支。

至此之前:

1. 下载我们的Lean项目从https://github.com/dselsam/lean/tree/certigrad并且根据在https://github.com/leanprover/lean中的说明构建/安装。

2. 下载Eigen并安装。

3. 下载这个库,并在主目录执行leanpkg --建立。

注意:搭建Certigrad目前需要大约15分钟和大约7 GB的内存消耗。

警告

我们已经正式证明Certigrad是正确的(在上面提到的问题),但这并不意味着Certigrad是你所期望的那样。它的意思是,根据假设,与上面相关的定理是正确的。

Certigrad的设计是一个概念证明,不是一个生产系统。有许多功能需要添加,使之成为一个有用的工件。在发展的过程中,我们遇到了很多需要解决的问题来使我们的方法论经济化并且我们在解决这些挑战比扩展和维护Certigrad作为目的本身更感兴趣。

更多信息

一篇描述了Certigrad背后的理念的文章可以在 https://arxiv.org/abs/1706.08605 看,并将在2017年的ICML中出现。

团队

  • Daniel Selsam,斯坦福大学
  • Percy Liang,斯坦福大学
  • David L. Dill,斯坦福大学

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《Certigrad - Certified stochastic computation graphs by Daniel Selsam》,

作者:Daniel Selsam,斯坦福大学学生 译者:TIAMO_ZN 审阅:袁虎

文章为简译,更为详细的内容,请查看原文

相关文章
|
8月前
|
机器学习/深度学习 算法 测试技术
处理不平衡数据的过采样技术对比总结
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。
298 0
【数理统计实验(一)】统计量近似分布的随机模拟
【数理统计实验(一)】统计量近似分布的随机模拟
|
7月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
101 4
|
7月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
68 0
|
8月前
|
机器学习/深度学习
大模型开发: 解释批量归一化以及它在训练深度网络中的好处。
批量归一化(BN)是2015年提出的加速深度学习训练的技术,旨在解决内部协变量偏移、梯度消失/爆炸等问题。BN通过在每层神经网络的小批量数据上计算均值和方差,进行标准化处理,并添加可学习的γ和β参数,保持网络表达能力。这样能加速训练,降低超参数敏感性,对抗过拟合,简化初始化。BN通过稳定中间层输入分布,提升了模型训练效率和性能。
204 3
|
8月前
|
数据可视化 测试技术
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
|
监控
【状态估计】基于随机方法优化PMU优化配置(Matlab代码实现)
【状态估计】基于随机方法优化PMU优化配置(Matlab代码实现)
|
算法 编译器 应用服务中间件
加权随机设计与实现
加权随机,是指当我们从某种容器中随机选择一个元素,每个元素被选中的机会并不相等,而是由相对“权重”(或概率)被选中的,也就是说我们想要有“偏心”的得到某种随机结果。
78918 1
加权随机设计与实现
|
机器学习/深度学习 存储 网络架构
比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟
比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟
125 0
|
算法 计算机视觉
【双目视觉】 立体匹配算法原理之“代价空间与聚合、视差计算”
【双目视觉】 立体匹配算法原理之“代价空间与聚合、视差计算”
278 0