7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(2)

简介: 7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍

推荐:2010 年以来,ML 算力需求增长 100 亿倍,每 6 个月翻番,深度学习成分水岭。

论文 5:GroupViT: Semantic Segmentation Emerges from Text Supervision


摘要:来自加州大学圣圣地亚哥分校和英伟达的研究者提出这样一个问题:我们是否也可以学习一个纯文本监督的语义分割模型,无需做任何像素标注,就能够以零样本方式泛化到不同对象类别或词汇集?

为了实现这一点,他们提出将分组机制加入深度网络。只要通过文本监督学习,分组机制就可以自动生成语义片段。方法概览如下图 1 所示,通过对具有对比损失的大规模配对图文数据进行训练,可以让模型不需要任何进一步的注释或微调的情况下,能够零样本迁移学习得到未知图像的语义分割词汇。

该研究的关键思想是利用视觉 Transformer(ViT)在其中加入新的视觉分组模块,研究者将新模型称为 GroupViT(分组视觉 Transformer)。

GroupVit 的语义分割效果如下动图所示。


GroupViT 包含按阶段分组的 Transformer 层的分层结构,每个阶段会处理逐渐放大的视觉片段。右侧的图像显示了在不同分组阶段要处理的视觉片段。在初期阶段模型将像素分组为局部对象,例如大象的鼻子和腿。在更高的阶段进一步将它们合并成整体,例如整个大象和背景森林。

每个分组阶段都以一个分组块结束,该块会计算学习到的组标记和片段(图像)标记之间的相似度。相似度高的组会分配给同一组的段标记并合并在一起,并做进入下一个分组阶段的新段标记。

图 2:(a) GroupViT 的架构和训练流程。(b) 分组块的架构。

推荐:做语义分割不用任何像素标签,UCSD、英伟达在 ViT 中加入分组模块,入选 CVPR 2022。

论文 6:A SYSTEMATIC EVALUATION OF LARGE LANGUAGE MODELS OF CODE


摘要:在近日一篇论文中,来自 CMU 计算机科学学院的几位研究者对跨不同编程语言的现有代码模型——Codex、GPT-J、GPT-Neo、GPT-NeoX 和 CodeParrot 进行了系统评估。他们希望通过比较这些模型来进一步了解代码建模设计决策的前景,并指出关键的缺失一环,即迄今为止,没有大规模开源语言模型专门针对多编程语言的代码进行训练。研究者推出了三个此类模型,参数量从 160M 到 2.7B,并命名为「PolyCoder」。

研究者首先对 PolyCoder、开源模型和 Codex 的训练语评估设置进行了广泛的比较;其次,在 HumanEval 基准上评估这些模型,并比较了不同大小和训练步的模型如何扩展以及不同的温度如何影响生成质量;最后,由于 HumanEval 只评估自然语言和 Python 生成,他们针对 12 种语言中的每一种都创建了相应未见过的评估数据集,以评估不同模型的困惑度。

结果表明,尽管 Codex 声称最擅长 Python 语言,但在其他编程语言中也表现出奇得好,甚至优于在 Pile(专为训练语言模型设计的 825G 数据集)上训练的 GPT-J 和 GPT-NeoX。不过,在 C 语言中,PolyCoder 模型取得的困惑度低于包括 Codex 在内的所有其他模型。

下图 1 展示了现有语言代码模型及它们的大小和可用性,除 Codex 和 Austin'21 之外全部开源。

研究者还讨论了代码语言建模中使用的三种流行的预训练方法,具体如下图 2 所示。

推荐:CMU 创建一个开源的 AI 代码生成模型,C 语言表现优于 Codex。

论文 7:OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks


摘要:传统生成模型通常从相对较小的图像数据集中,基于 patch 分布学习生成大型图像,这种方法很难生成视觉上连贯的图像。OUR-GAN 以低分辨率生成视觉上连贯的图像,然后通过超分辨率逐渐提升分辨率。由于 OUR-GAN 从真实的 UHR 图像中学习,它可以合成具有精细细节的大规模形状,同时保持远距离连贯性。

OUR-GAN 应用无缝衔接的子区域超分辨率,在内存受限的条件下合成 4K 或更高分辨率的 UHR 图像,并解决了边界不连续的问题。此外,OUR-GAN 通过向特征图添加垂直位置嵌入来提高多样性和视觉连贯性。在 ST4K 和 RAISE 数据集上的实验结果表明:与现有方法相比,OUR-GAN 表现出更高的保真度、视觉连贯性和多样性。

我们来看一下 OUR-GAN 的合成效果,下图(上)是 OUR-GAN 训练使用的单个 4K 图像,(下)是 OUR-GAN 合成的 16K (16384 x 10912) 图像。

以下几组是 OUR-GAN 合成的 4K 风景图:

OUR-GAN 成功合成了具有多种图案的高质量纹理图像:

OUR-GAN 通过三个步骤合成占用有限 GPU 内存的 UHR 图像,如下图 3 所示。首先,OURGAN 生成低分辨率的全局结构。然后通过 in-memory 超分辨率在内存限制内尽可能提高分辨率。最后,OURGAN 通过逐个子区域应用超分辨率来进一步提高超出内存限制的分辨率来合成 UHR 图像。

超分辨率模型的输出分辨率受限于训练图像的分辨率。然而,ZSSR 和 MZSR 已经证明,通过利用信息的内部循环,超分辨率模型可以生成比训练图像大 2 到 4 倍的图像。

推荐:首个单样本(one-shot)超高分辨率(UHR)图像合成框架 OUR-GAN,能够从单个训练图像生成具有 4K 甚至更高分辨率的非重复图像。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
62 2
|
机器学习/深度学习 自然语言处理 监控
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
202 0
|
机器学习/深度学习 数据可视化 Go
Nature Comm.综述:为什么深度学习可以在生命科学领域大放异彩
Nature Comm.综述:为什么深度学习可以在生命科学领域大放异彩
136 0
|
机器学习/深度学习 自然语言处理 网络架构
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(2)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
167 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
133 0
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍(1)
7 Papers & Radios | MIT深度学习框架登Nature封面;2010年以来,ML算力需求增100亿倍
122 0
|
8天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,重点分析了卷积神经网络(CNN)的工作原理及其在处理图像数据方面的优势。通过案例研究,展示了深度学习如何提高图像识别的准确性和效率。同时,文章也讨论了当前面临的主要挑战,包括数据不足、过拟合问题以及计算资源的需求,并提出了相应的解决策略。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
4天前
|
机器学习/深度学习 数据采集 测试技术
深度学习在图像识别中的应用
本篇文章将探讨深度学习在图像识别中的应用。我们将介绍深度学习的基本原理,以及如何使用深度学习进行图像识别。我们将通过一个简单的代码示例来演示如何使用深度学习进行图像识别。这篇文章的目的是帮助读者理解深度学习在图像识别中的作用,并学习如何使用深度学习进行图像识别。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新

热门文章

最新文章