7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(1)

简介: 7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍
本周论文包括来自阿伯丁大学、MIT 等机构的研究者对 ML 三要素中的算力需求进行了研究,发现自 2010 年以来,ML 算力需求增长 100 亿倍,每 6 个月翻番,深度学习成分水岭;CMU 创建一个开源的 AI 代码生成模型,C 语言表现优于 Codex。


目录:

  1. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
  2. The evolution, evolvability and engineering of gene regulatory DNA
  3. An Image Patch is a Wave: Quantum Inspired Vision MLP
  4. COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING
  5. GroupViT: Semantic Segmentation Emerges from Text Supervision
  6. A SYSTEMATIC EVALUATION OF LARGE LANGUAGE MODELS OF CODE
  7. OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs


摘要:近日,清华大学、旷视科技等机构的研究者发表于 CVPR 2022 的工作表明,CNN 中的 kernel size 是一个非常重要但总是被人忽略的设计维度。在现代模型设计的加持下,卷积核越大越暴力,既涨点又高效,甚至大到 31x31 都非常 work(如下表 5 所示,左边一栏表示模型四个 stage 各自的 kernel size)!

即便在大体量下游任务上,该研究提出的超大卷积核模型 RepLKNet 与 Swin 等 Transformer 相比,性能也更好或相当!

该研究做了哪些具体的工作?

1. 通过一系列探索性的实验,总结了在现代 CNN 中应用超大卷积核的五条准则:

  • 用 depth-wise 超大卷积,最好再加底层优化(已集成进开源框架 MegEngine)
  • 加 shortcut
  • 用小卷积核做重参数化(即结构重参数化方法论,见去年的 RepVGG,参考文献 [1])
  • 要看下游任务的性能,不能只看 ImageNet 点数高低
  • 小 feature map 上也可以用大卷积,常规分辨率就能训大 kernel 模型


2. 基于以上准则,简单借鉴 Swin Transformer 的宏观架构,该研究提出了一种架构 RepLKNet,其中大量使用超大卷积,如 27x27、31x31 等。这一架构的其他部分非常简单,都是 1x1 卷积、Batch Norm 等喜闻乐见的简单结构,不用任何 attention。

3. 基于超大卷积核,对有效感受野、shape bias(模型做决定的时候到底是看物体的形状还是看局部的纹理?)、Transformers 之所以性能强悍的原因等话题的讨论和分析。该研究发现,ResNet-152 等传统深层小 kernel 模型的有效感受野其实不大,大 kernel 模型不但有效感受野更大而且更像人类(shape bias 高),Transformer 可能关键在于大 kernel 而不在于 self-attention 的具体形式。

例如,下图 1 分别表示 ResNet-101、ResNet-152、全为 13x13 的 RepLKNet、kernel 大到 31x31 的 RepLKNet 的有效感受野,可见较浅的大 kernel 模型的有效感受野非常大。

该研究以 Swin 作为主要的对比对象,并无意去刷 SOTA,所以简单借鉴 Swin 的宏观架构设计了一种超大卷积核架构。这一架构主要在于把 attention 换成超大卷积和与之配套的结构,再加一点 CNN 风格的改动。根据以上五条准则,RepLKNet 的设计元素包括 shortcut、depth-wise 超大 kernel、小 kernel 重参数化等。

整体架构图。

推荐:大到 31x31 的超大卷积核,涨点又高效,解读 RepLKNet。

论文 2:The evolution, evolvability and engineering of gene regulatory DNA


摘要:近日,来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型,预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响,登上了最新一期《自然》杂志的封面。

该研究还设计了一种以二维方式表示适应度地形的独特方式,使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变,甚至有望为基因治疗和工业应用设计自定义的基因表达模式。

麻省理工学院研究生 Eeshit Dhaval Vaishnav、哥伦比亚大学助理教授 Carl de Boer(论文共同一作)等人创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练模型,并观察每个随机序列如何影响基因表达,该数据集是通过将数百万个完全随机的非编码 DNA 序列插入酵母菌中生成的。他们专注于非编码 DNA 序列的一个特定子集——启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。

首先,为了确定他们的模型是否有助于合成生物学应用,如生产抗生素、酶和食物,研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。然后,他们查阅了其他的科学论文,以确定基本的演化问题,看看他们的模型能否帮助解答这些问题。该团队甚至还从一项现有研究中获取了真实世界的种群数据集,其中包含了世界各地酵母菌株的遗传信息。通过这些方法,他们能够描绘出过去数千年的选择压力,这种压力塑造了今天的酵母基因组。

但是,为了创造一个可以探测所有基因组的强大工具,研究人员需要找到一种方法,在没有这样一个全面的种群数据集的情况下预测非编码序列的进化。为了实现这一目标,Vaishnav 和他的同事们设计了一种计算方法,允许他们将来自框架的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列如何影响基因表达和适应度,而无需在实验室工作台进行任何耗时的实验。

推荐:MIT 设计深度学习框架登 Nature 封面,预测非编码区 DNA 突变。

论文 3:An Image Patch is a Wave: Quantum Inspired Vision MLP


摘要:来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 架构,在 ImageNet 分类、COCO 检测、ADE20K 分割等多个任务上取得了 SOTA 性能。

该研究受量子力学中波粒二象性的启发,将 MLP 中每个图像块 (Token) 表示成波函数的形式,从而提出了一个新型的视觉 MLP 架构——Wave-MLP,在性能上大幅超越了现有 MLP 架构以及 Transformer。

量子力学是描述微观粒子运动规律的物理学分支,经典力学可被视为量子力学的特例。量子力学的一个基本属性是波粒二象性,即所有的个体(比如电子、光子、原子等)都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性,幅值表示一个波可能达到的最大强度,相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波(比如,德布罗意波)的形式来表示,可以更完备地描述微观粒子的运动状态。

那么,对于视觉 MLP 中的图像块,能不能也把它表示成波的形式呢?该研究用幅值表达每个 Token 所包含的实际信息,用相位来表示这个 Token 当前所处的状态。在聚集不同 Token 信息的时候,不同 Token 之间的相位差会调制它们之间的聚合过程(如图 3 示)。考虑到来自不同输入图像的 Token 包含不同的语义内容,该研究使用一个简单的全连接模块来动态估计每个 Token 的相位。对于同时带有幅度和相位信息的 Token,作者提出了一个相位感知 Token 混合模块(PATM,如下图 1 所示)来聚合它们的信息。交替堆叠 PATM 模块和 MLP 模块构成了整个 Wave-MLP 架构。

图 1:Wave-MLP 架构中的一个单元

相比现有的视觉 Transformer 和 MLP 架构,Wave-MLP 有着明显的性能优势(如下图 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率,比相似计算代价的 Swin-T 高 1.3 个点。此外,Wave-MLP 也可以推广到目标检测和语义分割等下游任务,展现出强大的泛化性能。

图 2:Wave-MLP 与现有视觉 Transformer、MLP 架构的比较

推荐:图像也是德布罗意波!华为诺亚 & 北大提出量子启发 MLP,性能超越 Swin Transfomer。

论文 4:COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING


摘要:近日来自阿伯丁大学、MIT 等机构的研究者对 ML 三要素中的算力需求进行了研究。他们发现,在 2010 年之前训练所需的算力增长符合摩尔定律,大约每 20 个月翻一番。自 2010 年代初深度学习问世以来,训练所需的算力快速增长,大约每 6 个月翻一番。2015 年末,随着大规模 ML 模型的出现,训练算力的需求提高了 10 到 100 倍,出现了一种新的趋势。

基于上述发现,研究者将 ML 所需算力历史分为三个阶段:前深度学习时代;深度学习时代;大规模时代。总的来说,该论文详细研究了里程碑式 ML 模型随时间变化的算力需求。

本文贡献如下:

  • 收集了 123 个具有里程碑意义的 ML 系统数据集,并对算力进行了注释;
  • 初步将算力趋势划分为三个不同的阶段;
  • 对算力结果进行检查,讨论了与以前工作的不同之处。


研究者根据三个不同的时代和三种不同的趋势来解读他们整理的数据。简单来说,在深度学习起飞前,有一个缓慢增长的时代。大约在 2010 年,这一趋势加速并且此后一直没有放缓。另外,2015 至 2016 年大规模模型出现了一个新趋势,即增长速度相似,但超越以往两个数量级(orders of magnitude, OOM)。具体可见下图 1 和表 2。

图 1:1952 年以来,里程碑式 ML 系统随时间推移的训练算力(FLOPs)变化。

表 2:不同阶段的趋势。

如果将深度学习时代的开始定为 2010 或 2012 年,研究者的结果几乎没有变化,具体如下表 3 所示。

图 2:1952 至 2022 年期间,里程碑式 ML 系统的算力变化趋势。请特别注意 2010 年左右的坡度变化。

表 3:1952 至 2022 年 ML 模型的对数线性回归结果。

ArXiv Weekly Radiostation

相关文章
|
12月前
|
机器学习/深度学习 自然语言处理 监控
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
173 0
|
12月前
|
机器学习/深度学习 自然语言处理 网络架构
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(2)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
126 0
|
12月前
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
105 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(2)
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍
|
12月前
|
机器学习/深度学习 人工智能 数据可视化
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
|
机器学习/深度学习 存储 人工智能
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
101 0
|
2天前
|
机器学习/深度学习 边缘计算 算法
深度学习在图像识别中的应用与挑战
【5月更文挑战第9天】 随着人工智能技术的迅猛发展,深度学习已成为推动计算机视觉领域进步的关键力量。尤其是在图像识别任务中,深度神经网络通过模拟人脑的机制,显著提升了系统的准确率和鲁棒性。然而,尽管取得了显著成就,深度学习在图像识别应用中仍面临数据偏差、模型泛化能力不足以及计算资源密集等挑战。本文将探讨深度学习在图像识别领域的最新进展,分析其面临的主要技术和实践难题,并展望可能的解决方案。
|
1天前
|
机器学习/深度学习 存储 边缘计算
深度学习在图像识别中的应用与挑战
【5月更文挑战第11天】 随着计算机视觉技术的飞速发展,深度学习已成为推动图像识别领域进步的核心动力。本文将探讨深度学习在图像识别中的应用,并分析当前面临的主要挑战。通过梳理卷积神经网络(CNN)的发展历程、关键算法及其在不同场景下的应用案例,本文揭示了深度学习技术如何有效提升图像识别的准确性与效率。同时,针对数据偏差、模型泛化能力、计算资源限制等问题,文中提出了相应的解决策略和未来发展方向。
|
1天前
|
机器学习/深度学习 数据采集 算法
探索深度学习在图像识别中的应用
【5月更文挑战第11天】 随着人工智能技术的飞速发展,深度学习已经成为了计算机视觉领域的核心动力。尤其是在图像识别任务中,深度神经网络以其强大的特征提取和学习能力,不断刷新着分类、检测及分割等领域的性能标准。本文将深入探讨深度学习在图像识别中的应用,重点分析卷积神经网络(CNN)的架构演变、损失函数与优化策略的选择,以及数据增强和迁移学习等关键技术的作用。通过具体案例,我们将展示深度学习技术如何推动图像识别精度的不断提升,并探讨未来发展趋势。
|
2天前
|
机器学习/深度学习 安全 量子技术
深度学习在图像识别中的应用与挑战
【5月更文挑战第10天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的核心力量。本文聚焦于深度学习在图像识别任务中的应用,并探讨了当前面临的主要挑战。我们将回顾深度学习模型的发展历程,特别是卷积神经网络(CNN)在处理图像数据方面的革命性贡献,并分析诸如数据偏差、模型泛化能力、计算资源需求等关键问题。此外,文中还将展望深度学习技术未来的发展方向及其在图像识别领域的应用前景。