2022年AI顶级论文 —生成模型之年(下)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 2020年,随着OpenAI GPT-3模型(模型参数约1750亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


a64f3d0061669012245ca47e453e75aa.png


过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。


  • 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。

  • 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。

  • 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。

  • 2018年,谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向预训练模型,其模型参数首次超过了3亿(BERT-Large约有3.4个参数);同年,OpenAI提出了生成式预训练 Transformer 模型——GPT,大大地推动了自然语言处理领域的发展。

  • 2018年,人工智能团队OpenAI Five战胜了世界顶级的Dota 2人类队伍,人工智能在复杂任务领域树立了一个新的里程碑;此后在2018年底,Google DeepMind团队提出的AlphaFold以前所未有的准确度成功预测了人类蛋白质结构,突破了人们对人工智能在生物学领域的应用的想象。

  • 2019年,一种人工智能系统AlphaStar在2019年击败了世界顶级的StarCraft II人类选手,为人工智能在复杂任务领域的未来发展提供了有力的证明和支持。

  • 2020年,随着OpenAI GPT-3模型(模型参数约1750亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。

  • 2021年1月,Google Brain提出了Switch Transformer模型,以高达1.6万亿的参数量成为史上首个万亿级语言模型;同年12月,谷歌还提出了1.2亿参数的通用稀疏模型GLaM,在多个小样本学习任务的性能超过GPT-3。

  • 2022年2月,人工智能生成内容(AIGC)技术被《MIT Technology Review》评选为2022年全球突破性技术之一。同年8月,Stability AI开源了文字转图像的Stable Diffusion模型。也是在8月,艺术家杰森·艾伦(Jason Allen)利用AI工具制作的绘画作品《太空歌剧院》(Théâtre D’opéra Spatial),荣获美国科罗拉多州艺术博览会艺术竞赛冠军,相关技术于年底入选全球知名期刊《Science》年度科技突破(Breakthrough of the Year 2022)第2名。

       今年,我们看到生成模型领域取得了重大进展。Stable Diffusion 🎨 创造超现实主义艺术。ChatGPT 💬 回答关于生命意义的问题。Galactica🧬 学习人类科学知识的同时也揭示了大型语言模型的局限性。本文涵盖了 2022 年 20 篇最具影响力的 AI 论文,但是这篇文章绝不是详尽无遗的,今年有很多很棒的论文——我最初想列出 10 篇论文,但最后缺列出了 20 篇,涵盖不同主题的论文,例如生成模型(稳定扩散、ChatGPT)、AI 代理(MineDojo、Cicero)、3D 视觉(即时NGP、Block-NeRF)和新的state-of-the-基本 AI 任务中的艺术(YOLOv7,Whisper)。

15. Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)


通过大规模弱监督(耳语)进行鲁棒语音识别

作者:Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

文章链接:https://arxiv.org/abs/2212.04356

dff7501b4e215ae13f0d0530a6f93fa0.png

ef47c6b323f2556d834ce5728cf7d40f.png

简介

       我们研究了经过简单训练以预测互联网上大量音频转录本的语音处理系统的能力。当扩展到 680,000 小时的多语言和多任务监督时,生成的模型可以很好地泛化到标准基准,并且通常与之前的完全监督结果具有竞争力,但在零样本迁移设置中不需要任何微调。与人类相比,这些模型接近其准确性和鲁棒性。我们正在发布模型和推理代码,作为进一步研究稳健语音处理的基础。

       Whisper 是一种多语言自动语音识别 (ASR) 系统,它接近人类级别的鲁棒性,并为零样本语音识别设定了新的最先进技术。有传言称,OpenAI 开发 Whisper 是为了从视频中挖掘更多信息,用于训练他们的下一代大型语言模型。

16. Galactica: A Large Language Model for Science


Galactica:科学的大型语言模型

作者:Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic

文章链接:https://arxiv.org/abs/2211.098

ec9c07ab49a4600eb619b8e5368abc8a.png

308f46e39f85cd639b8bb7720fd05023.png

简介

     信息过载是科学进步的主要障碍。科学文献和数据的爆炸式增长使得从大量信息中发现有用的见解变得越来越困难。今天,科学知识是通过搜索引擎获取的,但它们无法单独组织科学知识。在本文中,我们介绍了 Galactica:一种可以存储、组合和推理科学知识的大型语言模型。我们在大量的论文、参考资料、知识库和许多其他来源的科学语料库上进行训练。我们在一系列科学任务上的表现优于现有模型。在 LaTeX 方程式等技术知识探索上,Galactica 比最新的 GPT-3 高出 68.2% 和 49.0%。Galactica 在推理方面也表现出色,在数学 MMLU 上的表现优于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分别为 20.4% 和 8.8%。它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了 77.6% 和 52.9% 的新水平。尽管没有接受过一般语料库的训练,卡拉狄加在 BIG-bench 上的表现优于 BLOOM 和 OPT-175B。我们相信这些结果证明了语言模型作为科学新界面的潜力。为了科学界的利益,我们开源了模型。

       Galactica 是一种大型语言模型,在大量论文、参考资料和知识库的科学语料库上进行训练。不幸的是,与许多其他语言模型一样,Galactica 会产生统计上的胡说八道,这在科学环境中尤其有害。卡拉狄加在互联网上只存活了三天。

17. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding


具有多分辨率哈希编码的即时神经图形基元

作者:Thomas Müller, Alex Evans, Christoph Schied, Alexander Keller

文章链接:https://arxiv.org/abs/2201.05989

38d7c0b100762089b14d914506838e3d.png

700a8b0a8a0d23d22082256b3c152e1a.png

9768a12f857f82df5eb1f24e6bd6e40a.png

简介

     由完全连接的神经网络参数化的神经图形基元的训练和评估成本可能很高。我们通过一种通用的新输入编码来降低成本,这种编码允许在不牺牲质量的情况下使用较小的网络,从而显着减少浮点数和内存访问操作的数量:一个小型神经网络通过可训练特征向量的多分辨率哈希表得到增强其值通过随机梯度下降优化。多分辨率结构允许网络消除哈希冲突的歧义,从而形成一个简单的架构,在现代 GPU 上并行化是微不足道的。我们通过使用完全融合的 CUDA 内核实现整个系统来利用这种并行性,重点是最大限度地减少浪费的带宽和计算操作。我们实现了几个数量级的综合加速,能够在几秒钟内训练出高质量的神经图形基元,并在几十毫秒内以 1920×1080 的分辨率进行渲染。Instant NGP 将神经图形原语(例如 NeRF、神经千兆像素图像、神经 SDF 和神经体积)的训练速度提高到几乎实时。

18. Block-NeRF: Scalable Large Scene Neural View Synthesis


Block-NeRF:可扩展的大场景神经视图合成

作者:Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar

文章链接:https://arxiv.org/abs/2202.05263

3b9658e1bcdb2f7c5b8387dd8a25d40e.png

fb206410063e98d43fa600e97176c310.jpg

简介

      我们介绍了 Block-NeRF,它是神经辐射场的一种变体,可以代表大规模环境。具体来说,我们证明了在缩放 NeRF 以渲染跨越多个街区的城市规模场景时,将场景分解为单独训练的 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的环境,并允许对环境进行逐块更新。我们采用了多项架构更改,使 NeRF 对在不同环境条件下捕获的数月数据具有鲁棒性。我们为每个单独的 NeRF 添加了外观嵌入、学习姿势细化和可控曝光,并引入了一个程序来对齐相邻 NeRF 之间的外观,以便它们可以无缝组合。我们从 280 万张图像构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染整个旧金山社区。

19. DreamFusion: Text-to-3D using 2D Diffusion


DreamFusion:使用 2D 扩散的文本到 3D

作者:Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall

文章链接:https://arxiv.org/abs/2209.14988

3460c64aee966ccbd0acbad092d947a9.png

e66f9b5f720a78ccf0239df9e96d061d.png

简介

在数十亿图像文本对上训练的扩散模型推动了文本到图像合成的最新突破。将这种方法应用于 3D 合成将需要标记 3D 数据的大规模数据集和用于去噪 3D 数据的高效架构,目前两者都不存在。在这项工作中,我们通过使用预训练的 2D 文本到图像扩散模型来执行文本到 3D 合成来规避这些限制。我们引入了一种基于概率密度蒸馏的损失,它可以使用 2D 扩散模型作为参数图像生成器优化的先验。在类似 DeepDream 的过程中使用这种损失,我们通过梯度下降优化随机初始化的 3D 模型(神经辐射场或 NeRF),使其从随机角度的 2D 渲染实现低损失。给定文本的生成的 3D 模型可以从任何角度查看,通过任意照明重新点亮,或合成到任何 3D 环境中。我们的方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了预训练图像扩散模型作为先验模型的有效性。

20. Point-E: A System for Generating 3D Point Clouds from Complex Prompts

Point-E:根据复杂提示生成 3D 点云的系统

作者:Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, Mark Chen

文章链接:https://arxiv.org/abs/2212.08751

9bcc08d4d23e87703c0d79aaea348bc5.gif

1a4dc39866b0ff7819c6c2c5563fe6d0.png


简介

       虽然最近关于文本条件 3D 对象生成的工作已经显示出可喜的结果,但最先进的方法通常需要多个 GPU 小时来生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒或几分钟内生成样本。在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。我们的方法首先使用文本到图像的扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成 3D 点云。虽然我们的方法在样本质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在这个 https URL 上发布了我们预训练的点云扩散模型,以及评估代码和模型。

       Point-E 在单个 GPU 上将点云的文本到 3D 生成速度提高到几秒钟和几分钟。Point-E 首先使用文本到图像模型生成图像,然后使用扩散模型生成以图像为条件的 3D 点云。这会是 3D DALL-E 的前身吗?

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
7天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
68 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
16天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
68 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
18天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
60 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
18天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
58 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
21天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
57 8
【AI系统】Transformer 模型小型化
|
20天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
35 5
【AI系统】模型转换流程
|
20天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
48 4
【AI系统】模型转换基本介绍
|
20天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
59 4
【AI系统】模型压缩基本介绍
|
20天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
29 2
【AI系统】模型剪枝
|
21天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】轻量级CNN模型新进展
本文继续探讨CNN模型的小型化,涵盖ESPNet、FBNet、EfficientNet和GhostNet系列。ESPNet系列通过高效空间金字塔卷积减少运算量;FBNet系列采用基于NAS的轻量化网络设计;EfficientNet系列通过复合缩放方法平衡网络深度、宽度和分辨率;GhostNet系列则通过Ghost模块生成更多特征图,减少计算成本。各系列均旨在提升模型效率和性能,适用于移动和边缘设备。
38 6

热门文章

最新文章