学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异(1)

简介: 学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异

度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素”。


图源:https://twitter.com/YiMaTweets/status/1553913464183091200

深度学习(或一般的机器学习)经常被认为是简单的统计学,即它与统计学家研究的基本是相同的概念,但是使用与统计学不同的术语来描述。Rob Tibshirani 曾总结了下面这个有趣的“词汇表”:


表中的某些内容是不是很能引起共鸣?事实上所有从事机器学习的人都清楚,Tibshiriani 发布的这张表中,右侧的许多术语在机器学习中已被广泛使用。如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素。对深度学习更恰当的评价是:它使用统计学术语来描述完全不同的概念。

对深度学习的恰当评价不是它用不同的词来描述旧的统计术语,而是它用这些术语来描述完全不同的过程。本文会解释为什么深度学习的基础其实不同于统计学,甚至不同于经典的机器学习。本文首先讨论模型拟合数据时的「解释(explanation)」任务和「预测(prediction)」任务之间的差异。接着讨论学习过程的两个场景:1. 使用经验风险最小化拟合统计模型; 2. 向学生传授数学技能。然后,文章又讨论了哪一个场景更接近深度学习的本质。

虽然深度学习的数学和代码与拟合统计模型几乎相同。但在更深层次上,深度学习更像是向学生传授数学技能这种场景。而且应该很少有人敢宣称:我掌握了完整的深度学习理论!其实是否存在这样的理论也是存疑的。相反深度学习的不同方面最好从不同的角度来理解,而仅仅从统计角度无法提供完整的蓝图。本文对比了深度学习和统计学,这里的统计学特指的是“经典统计学”,因为它被研究得最久,并且在教科书中经久不衰。许多统计学家正在研究深度学习和非经典理论方法,就像 20 世纪物理学家需要扩展经典物理学的框架一样。事实上,模糊计算机科学家和统计学家之间的界限对双方都是有利的。

1、预测与模型拟合

一直以来,科学家们都是将模型计算结果与实际观测结果进行比较,以验证模型的准确性。埃及天文学家托勒密提出了关于行星运动的巧妙模型。托勒密的模型遵循地心说,但有一系列的本轮(见下图),使其具有极好的预测准确性。相比之下,哥白尼最初的日心说模型比托勒密模型简单,但在预测观察结果方面不太准确。(哥白尼后来添加了自己的本轮,以便能够与托勒密的模型媲美。)


托勒密和哥白尼的模型都是无与伦比的。如果我们想通过 “黑盒” 进行预测,那么托勒密的地心模型更胜一筹。但如果你想要一个简单的模型,以便可以“观察模型内部”(这是解释恒星运动理论的起点),那么哥白尼的模型是不二选择。后来,开普勒将哥白尼的模型改进为椭圆轨道,并提出了开普勒行星运动三定律,这使得牛顿能够用适用于地球的引力定律来解释行星规律。

因此,重要的是,日心说模型不只是一个提供预测的“黑盒”,而是由几个简单的数学方程给出的,但是方程中的 “运动部分” 极少。多年来,天文学一直是发展统计技术的灵感来源。高斯和勒让德分别独立地在 1800 年左右发明了最小二乘回归,以预测小行星和其他天体的轨道。1847 年,柯西发明了梯度下降法,这也是由天文预测推动的。

在物理学中,有时学者们可以掌握全部细节,从而找到 “正确” 的理论,把预测准确性做到最优,并且对数据做出最好的解释。这些都在奥卡姆剃刀之类的观点范畴内,可以认为是假设简单性、预测能力和解释性都相互和谐一致的。

然而,在许多其它领域,解释和预测这两个目标之间的关系却没有那么和谐。如果只想预测观察结果,通过 “黑盒” 可能是最好的。另一方面,如果想获得解释性的信息,如因果模型、通用原则或重要特征,那么可以理解和解释的模型可能越简单越好。

模型的正确选择与否取决于其用途。例如,考虑一个包含许多个体的遗传表达和表型(例如某些疾病)的数据集,如果目标是预测一个人生病的几率,那么无论它有多复杂或依赖于多少个基因,都要使用适配该任务的最佳预测模型。相反,如果目的是识别一些基因,以便进行进一步研究,那么一个复杂的非常精确的 “黑盒” 的用处是有限的。

统计学家 Leo Breiman 在 2001 年关于统计建模的两种文化的著名文章中阐述了这一点。第一种是“数据建模文化”,侧重于能解释数据的简单生成模型。第二种是“算法建模文化”,对数据的生成方式不可知,侧重于寻找能够预测数据的模型,无论其多么复杂。


文章链接:https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full

Breiman 认为,统计学过于受第一种文化的支配,这种关注造成两种问题:

  • 导致了不相关的理论和可疑的科学结论。
  • 阻止了统计学家研究令人兴奋的新问题。


Breiman 的论文一出,就引起了一些争议。同为统计学家的 Brad Efron 回应说,虽然他同意一些观点,但他也强调,Breiman 的论点似乎是反对节俭和科学见解,支持花大力气制造复杂的“黑盒”。但在最近的一篇文章中,Efron 摒弃了之前的观点,承认 Breima 更有先见之明,因为“21 世纪统计学的焦点都聚焦在预测算法上,在很大程度上沿着 Breiman 提出的路线演进”。

2、经典和现代预测模型

机器学习,无论是不是深度学习,都沿着 Breiman 的第二种观点演进,即以预测为重点。这种文化有着悠久的历史。例如,Duda 和 Hart 在 1973 年出版的教科书和 Highleyman 1962 年的论文就写到了下图中的内容,这对于今天的深度学习研究者来说是非常容易理解的:

Duda 和 Hart 的教科书《Pattern classification and scene analysis》和 Highleyman 1962 年的论文《The Design and Analysis of Pattern Recognition Experiments》中的片段。

类似地,下图中的 Highleyman 的手写字符数据集和用于拟合它的架构 Chow(1962)(准确率约为 58%)也会引起很多人的共鸣。


3、为什么深度学习与众不同?

1992 年,Geman、Bienenstock 和 Doursat 写了一篇关于神经网络的悲观文章,认为 “当前的前馈神经网络在很大程度上不足以解决机器感知和机器学习中的难题”。具体来说,他们认为通用神经网络在处理困难任务方面不会成功,而它们成功的唯一途径是通过人工设计的特征。用他们的话说:“重要属性必须是内置的或“硬连接的”…… 而不是以任何统计意义上的方式学习。” 现在看来 Geman 等人完全错了,但更有意思的是了解他们为什么错了。深度学习确实不同于其它学习方法。虽然深度学习似乎只是预测,就像最近邻或随机森林一样,但它可能有更多的复杂参数。这看起来似乎只是量的差异,而不是质的差异。但在物理学中,一旦尺度变化了几个数量级,通常就需要完全不同的理论,深度学习也是如此。深度学习与经典模型(参数化或非参数化)的基础过程完全不同,虽然它们的数学方程(和 Python 代码)在更高层次上来看是相同的。

为了说明这一点,下面考虑两个不同的场景:拟合统计模型和向学生教授数学。

场景 A:拟合一个统计模型

通过数据去拟合一个统计模型的典型步骤如下:

1.这里有一些数据(的矩阵;维向量,即类别标签。把数据认为是来自某个有结构且包含噪声的模型,就是要去拟合的模型)

2.使用上面的数据拟合一个模型,并用优化算法来最小化经验风险。就是说通过优化算法找到这样的,使得最小,代表损失(表明预测值有多接近真实值),是可选的正则化项。

3. 模型的总体损失越小越好,即泛化误差的值相对最小。

Effron 从包含噪声的观测中恢复牛顿第一定律的展示图

这个非常通用的范例其实包含许多内容,如最小二乘线性回归、最近邻、神经网络训练等等。在经典统计场景中,我们通常会碰到下面的情况:

权衡:假设是经过优化的模型集合(如果函数是非凸的或包含正则化项,精心选择算法和正则化,可得到模型集的偏差是元素所能达到的最接近真值的近似值。集合越大,偏差越小,并且可能为 0(如果)。

然而,越大,需要缩小其成员范围的样本越多,因此算法输出模型的方差越大。总体泛化误差是偏差和方差的总和。因此,统计学习通常是 Bias-Variance 权衡,正确的模型复杂度是将总体误差降至最低。事实上,Geman 等人证明了其对神经网络的悲观态度,他们认为:Bias-Variance 困境造成的基本限制适用于所有非参数推理模型,包括神经网络。

“多多益善”并不总是成立:在统计学习中,更多的特征或数据并不一定会提高性能。例如,从包含许多不相关特征的数据中学习是很难的。类似地,从混合模型中学习,其中数据来自两个分布中的一个(如),比独立学习每个分布更难。

收益递减:在很多情况中,将预测噪声降低到水平所需的数据点数量与参数是有关的,即数据点数量约等于。在这种情况下,需要大约 k 个样本才能启动,但一旦这样做,就面临着回报递减的情况,即如果需要个点才能达到 90% 的准确率,则需要大约额外的个点来将准确率提高到 95%。一般来说,随着资源增加(无论是数据、模型复杂度还是计算),人们希望获得越来越精细的区分,而不是解锁特定的新功能。

对损失、数据的严重依赖性:当将模型拟合到高维数据时,任何小细节都可能会产生很大的差异。L1 或 L2 正则化器等选择很重要,更不用说使用完全不同的数据集。不同数量的高维优化器相互之间也非常不同。

数据是相对 “单纯” 的:通常会假设数据是独立于某些分布进行采样的。虽然靠近决策边界的点很难分类,但考虑到高维度上测量集中现象,可以认为大多数点的距离都是相近的。因此在经典的数据分布中,数据点间的距离差异是不大的。然而,混合模型可以显示这种差异,因此,与上述其他问题不同,这种差异在统计中很常见。

场景 B:学习数学

在这个场景中,我们假设你想通过一些说明和练习来教学生数学(如计算导数)。这个场景虽然没有正式定义,但有一些定性特征:


学习一项技能,而不是去近似一个统计分布:在这种情况下,学生学习的是一种技能,而不是某个量的估计 / 预测。具体来说,即使将练习映射到解的函数不能被用作解决某些未知任务的“黑盒”,但学生在解决这些问题时形成的思维模式仍然对未知任务是有用的。多多益善:一般来说,做题越多、题型涉猎越广的学生表现越好。同时做一些微积分题和代数题,不会导致学生的微积分成绩下降,相反可能帮助其微积分成绩提升。

从提升能力到自动化表示:虽然在某些情况下,解决问题的回报也会递减,但学生的学习会经历几个阶段。有一个阶段,解决一些问题有助于理解概念并解锁新的能力。此外,当学生重复某一特定类型的问题时,他们见到同类问题就会形成自动化的解题流程,从之前的能力提升转变为自动化解题。

表现独立于数据和损失:教授数学概念的方法不止一种。使用不同书、教育方法或评分系统学习的学生最终可以学习到相同的内容以及相似的数学能力。有些问题更困难:在数学练习中,我们经常看到不同学生解决同一问题的方式之间存在着很强的相关性。对于一个问题来说,似乎确实存在一个固有的难度水平,以及一个对学习最有利的自然难度递进。

4、深度学习更像是统计估计还是学生学习技能?

上面两个场景的比喻中,哪一个用来描述现代深度学习更恰当?具体来说,它成功的原因是什么?统计模型拟合可以很好地使用数学和代码来表达。实际上,规范的 Pytorch 训练循环通过经验风险最小化训练深度网络:


在更深的层次上,这两种场景之间的关系并不清楚。为了更具体,这里以一个特定的学习任务为例。考虑使用 “自监督学习 + 线性探测” 方法训练的分类算法。具体算法训练如下:

1. 假设数据是一个序列,其中是某个数据点(比如一张图片),是标签。

2. 首先得到表示函数的深度神经网络。通过最小化某种类型的自监督损失函数,仅使用数据点而不使用标签来训练该函数。这种损失函数的例子是重建(用其它输入恢复输入)或对比学习(核心思想是正样本和负样本在特征空间对比,学习样本的特征表示)。

3. 使用完整的标记数据拟合线性分类器是类数),以最小化交叉熵损失。我们的最终分类器是:

步骤 3 仅适用于线性分类器,因此 “魔术” 发生在步骤 2 中(深度网络的自监督学习)。



相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
183 9
|
3月前
|
机器学习/深度学习 传感器 人工智能
深度学习之自主学习和任务规划
基于深度学习的自主学习和任务规划,是指通过深度学习算法使人工智能(AI)系统能够自主地从环境中学习,并根据特定的目标和任务,规划出有效的解决方案。
123 3
|
2月前
|
机器学习/深度学习
深度学习中的正则化技术:防止过拟合的利器
【10月更文挑战第30天】本文将深入探讨深度学习中一个关键概念——正则化,它如同园艺师精心修剪枝叶,确保模型不至于在训练数据的细节中迷失方向。我们将从直观的角度理解正则化的重要性,并逐步介绍几种主流的正则化技术,包括L1和L2正则化、Dropout以及数据增强。每种技术都将通过实际代码示例来展示其应用,旨在为读者提供一套完整的工具箱,以应对深度学习中的过拟合问题。
|
26天前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
3月前
|
机器学习/深度学习 存储 自然语言处理
深度学习之少样本学习
少样本学习(Few-Shot Learning, FSL)是深度学习中的一个重要研究领域,其目标是在只有少量标注样本的情况下,训练出能够很好地泛化到新类别或新任务的模型。
60 2
|
3月前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习中的迁移学习技术
【10月更文挑战第11天】 本文探讨了深度学习中的迁移学习技术,并深入分析了其原理、应用场景及实现方法。通过实例解析,展示了迁移学习如何有效提升模型性能和开发效率。同时,文章也讨论了迁移学习面临的挑战及其未来发展方向。
|
3月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
121 2
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习之复杂推理与逻辑学习
基于深度学习的复杂推理与逻辑学习是当前人工智能领域中的一个前沿研究方向,旨在结合深度学习与传统逻辑推理的优势,使机器能够在处理复杂任务时具备更强的推理能力。
50 2
|
2月前
|
安全 搜索推荐 机器学习/深度学习
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】在人工智能的推动下,个性化学习系统逐渐成为教育领域的重要趋势。深度学习作为AI的核心技术,在构建个性化学习系统中发挥关键作用。本文探讨了深度学习在个性化推荐系统、智能辅导系统和学习行为分析中的应用,并提供了代码示例,展示了如何使用Keras构建模型预测学生对课程的兴趣。尽管面临数据隐私和模型可解释性等挑战,深度学习仍有望为教育带来更个性化和高效的学习体验。
186 0
|
4月前
|
机器学习/深度学习 算法 自动驾驶
深度学习之分布式智能体学习
基于深度学习的分布式智能体学习是一种针对多智能体系统的机器学习方法,旨在通过多个智能体协作、分布式决策和学习来解决复杂任务。这种方法特别适用于具有大规模数据、分散计算资源、或需要智能体彼此交互的应用场景。
224 4