7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(2)

简介: 7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍

推荐:2010 年以来,ML 算力需求增长 100 亿倍,每 6 个月翻番,深度学习成分水岭。

论文 5:GroupViT: Semantic Segmentation Emerges from Text Supervision


摘要:来自加州大学圣圣地亚哥分校和英伟达的研究者提出这样一个问题:我们是否也可以学习一个纯文本监督的语义分割模型,无需做任何像素标注,就能够以零样本方式泛化到不同对象类别或词汇集?

为了实现这一点,他们提出将分组机制加入深度网络。只要通过文本监督学习,分组机制就可以自动生成语义片段。方法概览如下图 1 所示,通过对具有对比损失的大规模配对图文数据进行训练,可以让模型不需要任何进一步的注释或微调的情况下,能够零样本迁移学习得到未知图像的语义分割词汇。

该研究的关键思想是利用视觉 Transformer(ViT)在其中加入新的视觉分组模块,研究者将新模型称为 GroupViT(分组视觉 Transformer)。

GroupVit 的语义分割效果如下动图所示。


GroupViT 包含按阶段分组的 Transformer 层的分层结构,每个阶段会处理逐渐放大的视觉片段。右侧的图像显示了在不同分组阶段要处理的视觉片段。在初期阶段模型将像素分组为局部对象,例如大象的鼻子和腿。在更高的阶段进一步将它们合并成整体,例如整个大象和背景森林。

每个分组阶段都以一个分组块结束,该块会计算学习到的组标记和片段(图像)标记之间的相似度。相似度高的组会分配给同一组的段标记并合并在一起,并做进入下一个分组阶段的新段标记。

图 2:(a) GroupViT 的架构和训练流程。(b) 分组块的架构。

推荐:做语义分割不用任何像素标签,UCSD、英伟达在 ViT 中加入分组模块,入选 CVPR 2022。

论文 6:A SYSTEMATIC EVALUATION OF LARGE LANGUAGE MODELS OF CODE


摘要:在近日一篇论文中,来自 CMU 计算机科学学院的几位研究者对跨不同编程语言的现有代码模型——Codex、GPT-J、GPT-Neo、GPT-NeoX 和 CodeParrot 进行了系统评估。他们希望通过比较这些模型来进一步了解代码建模设计决策的前景,并指出关键的缺失一环,即迄今为止,没有大规模开源语言模型专门针对多编程语言的代码进行训练。研究者推出了三个此类模型,参数量从 160M 到 2.7B,并命名为「PolyCoder」。

研究者首先对 PolyCoder、开源模型和 Codex 的训练语评估设置进行了广泛的比较;其次,在 HumanEval 基准上评估这些模型,并比较了不同大小和训练步的模型如何扩展以及不同的温度如何影响生成质量;最后,由于 HumanEval 只评估自然语言和 Python 生成,他们针对 12 种语言中的每一种都创建了相应未见过的评估数据集,以评估不同模型的困惑度。

结果表明,尽管 Codex 声称最擅长 Python 语言,但在其他编程语言中也表现出奇得好,甚至优于在 Pile(专为训练语言模型设计的 825G 数据集)上训练的 GPT-J 和 GPT-NeoX。不过,在 C 语言中,PolyCoder 模型取得的困惑度低于包括 Codex 在内的所有其他模型。

下图 1 展示了现有语言代码模型及它们的大小和可用性,除 Codex 和 Austin'21 之外全部开源。

研究者还讨论了代码语言建模中使用的三种流行的预训练方法,具体如下图 2 所示。

推荐:CMU 创建一个开源的 AI 代码生成模型,C 语言表现优于 Codex。

论文 7:OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks


摘要:传统生成模型通常从相对较小的图像数据集中,基于 patch 分布学习生成大型图像,这种方法很难生成视觉上连贯的图像。OUR-GAN 以低分辨率生成视觉上连贯的图像,然后通过超分辨率逐渐提升分辨率。由于 OUR-GAN 从真实的 UHR 图像中学习,它可以合成具有精细细节的大规模形状,同时保持远距离连贯性。

OUR-GAN 应用无缝衔接的子区域超分辨率,在内存受限的条件下合成 4K 或更高分辨率的 UHR 图像,并解决了边界不连续的问题。此外,OUR-GAN 通过向特征图添加垂直位置嵌入来提高多样性和视觉连贯性。在 ST4K 和 RAISE 数据集上的实验结果表明:与现有方法相比,OUR-GAN 表现出更高的保真度、视觉连贯性和多样性。

我们来看一下 OUR-GAN 的合成效果,下图(上)是 OUR-GAN 训练使用的单个 4K 图像,(下)是 OUR-GAN 合成的 16K (16384 x 10912) 图像。

以下几组是 OUR-GAN 合成的 4K 风景图:

OUR-GAN 成功合成了具有多种图案的高质量纹理图像:

OUR-GAN 通过三个步骤合成占用有限 GPU 内存的 UHR 图像,如下图 3 所示。首先,OURGAN 生成低分辨率的全局结构。然后通过 in-memory 超分辨率在内存限制内尽可能提高分辨率。最后,OURGAN 通过逐个子区域应用超分辨率来进一步提高超出内存限制的分辨率来合成 UHR 图像。

超分辨率模型的输出分辨率受限于训练图像的分辨率。然而,ZSSR 和 MZSR 已经证明,通过利用信息的内部循环,超分辨率模型可以生成比训练图像大 2 到 4 倍的图像。

推荐:首个单样本(one-shot)超高分辨率(UHR)图像合成框架 OUR-GAN,能够从单个训练图像生成具有 4K 甚至更高分辨率的非重复图像。

相关文章
|
12月前
|
机器学习/深度学习 自然语言处理 监控
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
173 0
|
12月前
|
机器学习/深度学习 自然语言处理 网络架构
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(2)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
126 0
|
12月前
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
105 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(1)
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍
|
12月前
|
机器学习/深度学习 人工智能 数据可视化
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
|
机器学习/深度学习 存储 人工智能
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
101 0
|
3天前
|
机器学习/深度学习 边缘计算 算法
深度学习在图像识别中的应用与挑战
【5月更文挑战第9天】 随着人工智能技术的迅猛发展,深度学习已成为推动计算机视觉领域进步的关键力量。尤其是在图像识别任务中,深度神经网络通过模拟人脑的机制,显著提升了系统的准确率和鲁棒性。然而,尽管取得了显著成就,深度学习在图像识别应用中仍面临数据偏差、模型泛化能力不足以及计算资源密集等挑战。本文将探讨深度学习在图像识别领域的最新进展,分析其面临的主要技术和实践难题,并展望可能的解决方案。
|
1天前
|
机器学习/深度学习 存储 边缘计算
深度学习在图像识别中的应用与挑战
【5月更文挑战第11天】 随着计算机视觉技术的飞速发展,深度学习已成为推动图像识别领域进步的核心动力。本文将探讨深度学习在图像识别中的应用,并分析当前面临的主要挑战。通过梳理卷积神经网络(CNN)的发展历程、关键算法及其在不同场景下的应用案例,本文揭示了深度学习技术如何有效提升图像识别的准确性与效率。同时,针对数据偏差、模型泛化能力、计算资源限制等问题,文中提出了相应的解决策略和未来发展方向。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在许多领域都有广泛的应用
【5月更文挑战第11天】深度学习在许多领域都有广泛的应用
7 1
|
1天前
|
机器学习/深度学习 数据采集 算法
探索深度学习在图像识别中的应用
【5月更文挑战第11天】 随着人工智能技术的飞速发展,深度学习已经成为了计算机视觉领域的核心动力。尤其是在图像识别任务中,深度神经网络以其强大的特征提取和学习能力,不断刷新着分类、检测及分割等领域的性能标准。本文将深入探讨深度学习在图像识别中的应用,重点分析卷积神经网络(CNN)的架构演变、损失函数与优化策略的选择,以及数据增强和迁移学习等关键技术的作用。通过具体案例,我们将展示深度学习技术如何推动图像识别精度的不断提升,并探讨未来发展趋势。