如何提升深度学习算法效率,谷歌有这些绝招(下)

简介: 如何提升深度学习算法效率,谷歌有这些绝招(下)

正文


数据效率


在许多任务中,深度神经网络严重依赖于大型数据集。除了大型数据集带来的存储成本和潜在的安全 / 隐私问题外,在此类数据集上训练现代深度神经网络还会产生很高的计算成本。解决这个问题的可行方法之一是对数据子集进行选择。

研究人员分析了子集选择框架,设计用于实际批处理设置中的任意模型族。在这种情况下,学习器可以一次采样一个示例,同时访问上下文和 true 标签,但为了限制开销,只有在选择了足够多的示例批次后才能更新其状态(即进一步的训练模型权重)。研究人员开发了一种算法,称为 IWeS,它通过重要性抽样来选择示例,其中分配给每个示例的抽样概率是基于在先前选择的批次上训练的模型的熵。研究所提供的理论分析证明了泛化和抽样率的界限。

19.png

论文地址:https://arxiv.org/pdf/2301.12052.pdf

训练大型网络的另一个问题是,它们可能对训练数据和部署时看到的数据之间的分布变化高度敏感,特别是在使用有限数量的训练数据时,这些数据可能无法覆盖所有部署时场景。最近的一项研究假设「极端简单性偏差」是神经网络这种脆弱性背后的关键问题,其使这一假设成为可行,导致了两种新的互补方法 ——DAFT 和 FRR—— 结合在一起时,可以提供明显更鲁棒的神经网络。特别是,这两种方法使用对抗性微调以及反向特征预测来加强学习网络。

18.png

论文地址:https://arxiv.org/pdf/2006.07710.pdf


推理效率


事实证明,增加神经网络的规模能够提高其预测准确性,然而,在现实世界中实现这些收益是具有挑战性的,因为大型模型的推理成本对于部署来说非常高。这促使策略提高服务效率,而不牺牲准确性。在 2022 年,专家研究了实现这一目标的不同策略,特别是基于知识蒸馏和自适应计算的策略。


蒸馏


蒸馏是一种简单而有效的模型压缩方法,极大地扩展了大型神经模型的潜在适用性。已有研究证明蒸馏能在广告推荐等一系列实际应用中发挥其作用。蒸馏的大多数用例涉及基本配方在给定领域的直接应用,对何时以及为什么这应该起作用的理解有限。谷歌今年的研究着眼于针对特定环境定制蒸馏,并正式研究了控制蒸馏成功的因素。

在算法方面,研究通过仔细建模教师标签中的噪声,开发出了一项重新加权训练示例的重要途径,以及一项有效措施来对数据子集进行采样以获得教师标签。谷歌在《Teacher Guided Training: An Efficient Framework for Knowledge Transfer》中表明:不是被动地使用教师来注释固定的数据集,而是主动地使用教师来指导选择要注释的信息性样本。这使得蒸馏过程在有限的数据或长尾设置中脱颖而出。

17.png

论文地址:https://arxiv.org/pdf/2208.06825.pdf

除此之外,谷歌还研究了从交叉编码器 (dual-encoder, 例如 BERT) 到因子双编码器(dual-encoder)的新方法,这也是对(query, document)对的相关性进行评分的重要设置。研究人员探讨了交叉编码器和双编码器之间性能差距的原因,注意到这可能是泛化的结果,而不是双编码器的容量限制。精馏损失函数的精心构造可以缓解这种情况,并减少交叉编码器和双编码器性能之间的差距。随后,在 embedtitil 中,研究通过匹配教师模型中的嵌入来进一步改进双编码器蒸馏。这种策略也可以用于从大到小的双编码器模型中提取信息,其中继承和冻结教师的文档嵌入可以证明是非常有效的。

16.png

论文地址:https://arxiv.org/pdf/2301.12005.pdf

理论方面,研究从监督复杂性角度出发,提供了一个关于蒸馏的新视角,这是一种衡量学生预测教师标签程度的方法。NTK(neural tangent kernel )理论提供了概念性的见解。研究进一步证明,蒸馏会导致学生不适合教师模型认为难以建模的点。直观地说,这可以帮助学生将有限的能力集中在那些可以合理建模的样本上。

15.png

论文地址:https://arxiv.org/pdf/2301.12245.pdf


自适应计算


虽然蒸馏是一种降低推理成本的有效手段,但它在所有样本上都是一致的。然而,直观地说,一些简单(easy)样本可能天生就比困难(hard)样本需要更少的计算。自适应计算的目标是设计能够实现这种依赖于样本的计算的机制。

CALM(Confident Adaptive Language Modeling)为基于 Transformer 的文本生成器(如 T5)引入了受控的早期退出(early-exit)功能。

14.png

论文地址:https://arxiv.org/pdf/2207.07061.pdf

在这种形式的自适应计算中,模型动态地修改每个解码步骤使用的 Transformer 层数。早期退出门使用带有决策阈值的置信度测量,该决策阈值经过校准,以满足统计性能保证。通过这种方式,模型只需要为最具挑战性的预测计算解码器层的完整堆栈。更简单的预测只需要计算几个解码器层。在实践中,该模型平均使用大约三分之一的层进行预测,在保持相同水平的生成质量的同时,速度能提升 2-3 倍。


13.gif

使用常规语言模型(top)和 CALM (bottom)生成文本。CALM 试图做出早期预测。一旦对生成的内容足够自信(深蓝色调),它就会跳过来节省时间。

一种流行的自适应计算机制是两个或多个基本模型的级联。使用级联的一个关键问题:是简单地使用当前模型的预测,还是将预测推迟到下游模型。学习何时延迟需要设计一个合适的损失函数,它可以利用适当的信号作为延迟决策的监督。为了实现这一目标,研究人员正式研究了现有的损失函数,证明由于隐含的标签平滑应用,它们可能不适合训练样本。研究展示了可以通过延迟规则的 post-hoc 训练来缓解这种情况,这并不需要以任何方式修改模型内部。

12.png

论文地址:https://openreview.net/pdf?id=_jg6Sf6tuF7

对于检索应用,标准语义搜索技术对大型模型生成的每个嵌入使用固定表示。也就是说,无论下游任务及其相关的计算环境或约束如何,表示的大小和能力基本上是固定的。MRL(Matryoshka representation learning)引入了根据部署环境调整表示法的灵活性。当与标准的近似最近邻搜索技术(如 ScaNN)结合使用时,MRL 能够提供高达 16 倍的低计算,同时具有相同的召回率和准确率指标。

11.png

论文地址:https://openreview.net/pdf?id=9njZa1fm35

原文链接:https://ai.googleblog.com/2023/02/google-research-2022-beyond-algorithms.html?m=1#ToC

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
135 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
2月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
356 55
|
2天前
|
机器学习/深度学习 算法 安全
基于深度学习的路面裂缝检测算法matlab仿真
本项目基于YOLOv2算法实现高效的路面裂缝检测,使用Matlab 2022a开发。完整程序运行效果无水印,核心代码配有详细中文注释及操作视频。通过深度学习技术,将目标检测转化为回归问题,直接预测裂缝位置和类别,大幅提升检测效率与准确性。适用于实时检测任务,确保道路安全维护。 简介涵盖了算法理论、数据集准备、网络训练及检测过程,采用Darknet-19卷积神经网络结构,结合随机梯度下降算法进行训练。
|
2月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
220 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
2月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
2月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
TensorFlow,一款由谷歌开发的开源深度学习框架,详细讲解了使用 TensorFlow 构建深度学习模型的步骤
本文介绍了 TensorFlow,一款由谷歌开发的开源深度学习框架,详细讲解了使用 TensorFlow 构建深度学习模型的步骤,包括数据准备、模型定义、损失函数与优化器选择、模型训练与评估、模型保存与部署,并展示了构建全连接神经网络的具体示例。此外,还探讨了 TensorFlow 的高级特性,如自动微分、模型可视化和分布式训练,以及其在未来的发展前景。
351 5
|
3月前
|
算法 测试技术 量子技术
时隔5年,谷歌再创量子霸权里程碑!RCS算法让电路体积增加一倍
谷歌在量子计算领域取得重大突破,通过随机电路采样(RCS)算法,成功将量子电路体积翻倍,实现了量子霸权的里程碑。这一成果发表于《自然》杂志,展示了量子动力学与噪声交互作用下的相变现象,推动了量子计算在密码学、材料科学等领域的应用潜力。尽管如此,量子计算仍面临错误率高、可扩展性差等挑战。
77 3
|
3月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
141 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
3月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
179 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型

热门文章

最新文章