学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异(2)

简介: 学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异

在自监督学习中有些重要属性:

学习一项技能而不是去近似一个函数:自监督学习不是逼近函数,而是学习可用于各种下游任务的表示(这是自然语言处理的主导范式)。通过线性探测、微调或激励获得下游任务是次要的。

多多益善:在自监督学习中,表示质量随着数据量的增加而提高,不会因为混合了几个来源的数据而变糟。事实上,数据越多样化越好。


Google PaLM 模型的数据集。解锁新能力:随着资源(数据、计算、模型大小)投入的增加,深度学习模型也在不连续地改进。在一些组合环境中也证明了这一点。

随着模型规模的增加,PaLM 在基准测试中显示出不连续的改进,并且解锁令人惊讶的功能,比如解释笑话为什么好笑。

性能几乎与损失或数据无关:存在多个自监督损失,图像研究中其实使用了多种对比和重建损失,语言模型使用单边重建(预测下一个 token)或使用 mask 模型,预测来自左右 token 的 mask 输入。也可以使用稍微不同的数据集。这些可能会影响效率,但只要做出 “合理” 的选择,通常原始资源比使用的特定损失或数据集更能提升预测性能。

有些情况比其他情况更困难:这一点并不特定于自监督学习。数据点似乎有一些固有的 “难度级别”。事实上,不同的学习算法具有不同的“技能水平”,不同的数据 dian 具有不同的” 难度水平“(分类器正确分类点的概率随的技能而单调提升,随难度单调降低)。

“技能与难度(skill vs. difficulty)”范式是对 Recht 等人和 Miller 等人发现的 “accuracy on the line” 现象的最清晰解释。Kaplen、Ghosh、Garg 和 Nakkiran 的论文还展示了数据集中的不同输入如何具有固有的“难度剖面”,对于不同的模型族,该剖面通常是稳健的。

CIFAR-10 上训练并在 CINIC-10 上测试的分类器的 accuracy on the line 现象。图源:https://millerjohnp-linearfits-app-app-ryiwcq.streamlitapp.com/

顶部的图描述了最可能类别的不同 softmax 概率,作为某个类别分类器的全局精度的函数,该类别由训练时间索引。底部的饼图显示了不同数据集分解为不同类型的点(注意,这种分解对于不同的神经结构是相似的)。

训练就是教学:现代大模型的训练似乎更像是教学生,而不是让模型拟合数据,当学生不懂或感到疲倦时,就 “休息” 或尝试不同的方法(训练差异)。Meta 的大模型训练日志很有启发性——除了硬件问题外,我们还可以看到干预措施,例如在训练过程中切换不同的优化算法,甚至考虑 “hot swapping” 激活函数(GELU to RELU)。如果将模型训练视为拟合数据,而不是学习表示,则后者没有多大意义。

Meta 训练日志摘录

4.1)但是监督学习怎样呢?

前面讨论了自监督学习,但深度学习的典型例子,仍然是监督学习。毕竟,深度学习的 “ImageNet 时刻” 来自 ImageNet。那么上面所讨论的是否仍然适用于这个设定?

首先,有监督的大规模深度学习的出现在某种程度上是个偶然,这得益于大型高质量标记数据集(即 ImageNet)的可用性。如果你想象力丰富,可以想象另一种历史,即深度学习首先开始通过无监督学习在自然语言处理方面取得突破性进展,然后才转移到视觉和监督学习中。其次,有证据表明,尽管使用完全不同的损失函数,但监督学习和自监督学习在”内部“的行为其实是相似的。两者通常都能达到相同的性能。具体地,对于每一个,人们可以将通过自监督训练的深度为 d 的模型的前 k 层与监督模型的最后 d-k 层合在一起,而性能损失很小。

SimCLR v2 论文的表格。请注意监督学习、微调(100%)自监督和自监督 + 线性探测之间在性能上的一般相似性(图源:https://arxiv.org/abs/2006.10029

拼接自监督模型和 Bansal 等人的监督模型(https://arxiv.org/abs/2106.07682)。左:如果自监督模型的准确率(比如)比监督模型低 3%,则当层的 p 部分来自自监督模型时,完全兼容的表示将导致拼接惩罚为 p 3%。如果模型完全不兼容,那么我们预计随着合并更多模型,准确率会急剧下降。右:合并不同自监督模型的实际结果。

自监督 + 简单模型的优势在于,它们可以将特征学习或 “深度学习魔法”(由深度表示函数完成)与统计模型拟合(由线性或其他“简单” 分类器在此表示之上完成)分离。

最后,虽然这更像是一种推测,但事实上 “元学习” 似乎往往等同于学习表征(参见:https://arxiv.org/abs/1909.09157https://arxiv.org/abs/2206.03271),这可以被视为另一个证据,证明这在很大程度上是在进行的,而不管模型优化的目标是什么。

4.2)过度参数化怎么办?

本文跳过了被认为是统计学习模型和深度学习在实践中存在差异的典型例子:缺乏 “Bias-Variance 权衡” 以及过度参数化模型的良好泛化能力。

为什么要跳过?有两个原因:

  • 首先,如果监督学习确实等于自监督 + 简单学习,那么这可能解释了它的泛化能力。
  • 其次,过度参数化并不是深度学习成功的关键。深度网络之所以特别,并不是因为它们与样本数量相比大,而是因为它们在绝对值上大。事实上,通常在无监督 / 自监督学习中,模型不会过度参数化。即使对于非常大的语言模型,它们的数据集也更大。


Nakkiran-Neyshabur-Sadghi“deep bootstrap”论文表明,现代架构在 “过度参数化” 或“欠采样”状态下表现类似(模型在有限数据上训练多个 epoch,直到过度拟合:上图中的 “Real World”),在“欠参数化” 或者 “在线” 状态下也是如此(模型训练单个 epoch,每个样本只看一次:上图中的 “Ideal World”)。图源:https://arxiv.org/abs/2010.08127

总结

统计学习当然在深度学习中发挥着作用。然而,尽管使用了相似的术语和代码,但将深度学习视为简单地拟合一个比经典模型具有更多参数的模型,会忽略很多对其成功至关重要的东西。教学生数学的比喻也不是完美的。

与生物进化一样,尽管深度学习包含许多复用的规则(如经验损失的梯度下降),但它会产生高度复杂的结果。似乎在不同的时间,网络的不同组件会学习不同的东西,包括表示学习、预测拟合、隐式正则化和纯噪声等。研究人员仍在寻找合适的视角提出有关深度学习的问题,更不用说回答这些问题。

原文链接:https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/

相关文章
|
10月前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
565 9
|
8月前
|
机器学习/深度学习 数据采集 监控
深度学习中模型训练的过拟合与欠拟合问题
在机器学习和深度学习中,过拟合和欠拟合是影响模型泛化能力的两大常见问题。过拟合指模型在训练数据上表现优异但在新数据上表现差,通常由模型复杂度过高、数据不足或质量差引起;欠拟合则指模型未能充分学习数据中的模式,导致训练和测试数据上的表现都不佳。解决这些问题需要通过调整模型结构、优化算法及数据处理方法来找到平衡点,如使用正则化、Dropout、早停法、数据增强等技术防止过拟合,增加模型复杂度和特征选择以避免欠拟合,从而提升模型的泛化性能。
|
11月前
|
机器学习/深度学习 传感器 人工智能
深度学习之自主学习和任务规划
基于深度学习的自主学习和任务规划,是指通过深度学习算法使人工智能(AI)系统能够自主地从环境中学习,并根据特定的目标和任务,规划出有效的解决方案。
409 3
|
10月前
|
机器学习/深度学习
深度学习中的正则化技术:防止过拟合的利器
【10月更文挑战第30天】本文将深入探讨深度学习中一个关键概念——正则化,它如同园艺师精心修剪枝叶,确保模型不至于在训练数据的细节中迷失方向。我们将从直观的角度理解正则化的重要性,并逐步介绍几种主流的正则化技术,包括L1和L2正则化、Dropout以及数据增强。每种技术都将通过实际代码示例来展示其应用,旨在为读者提供一套完整的工具箱,以应对深度学习中的过拟合问题。
|
9月前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
11月前
|
机器学习/深度学习 存储 自然语言处理
深度学习之少样本学习
少样本学习(Few-Shot Learning, FSL)是深度学习中的一个重要研究领域,其目标是在只有少量标注样本的情况下,训练出能够很好地泛化到新类别或新任务的模型。
327 2
|
11月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
385 2
|
11月前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习中的迁移学习技术
【10月更文挑战第11天】 本文探讨了深度学习中的迁移学习技术,并深入分析了其原理、应用场景及实现方法。通过实例解析,展示了迁移学习如何有效提升模型性能和开发效率。同时,文章也讨论了迁移学习面临的挑战及其未来发展方向。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习之复杂推理与逻辑学习
基于深度学习的复杂推理与逻辑学习是当前人工智能领域中的一个前沿研究方向,旨在结合深度学习与传统逻辑推理的优势,使机器能够在处理复杂任务时具备更强的推理能力。
215 2
|
10月前
|
安全 搜索推荐 机器学习/深度学习
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】在人工智能的推动下,个性化学习系统逐渐成为教育领域的重要趋势。深度学习作为AI的核心技术,在构建个性化学习系统中发挥关键作用。本文探讨了深度学习在个性化推荐系统、智能辅导系统和学习行为分析中的应用,并提供了代码示例,展示了如何使用Keras构建模型预测学生对课程的兴趣。尽管面临数据隐私和模型可解释性等挑战,深度学习仍有望为教育带来更个性化和高效的学习体验。
557 0

热门文章

最新文章