AI_Papers周刊:第五期

简介: 我们研究了语言模型中的上下文学习 (ICL) 如何受到语义先验与输入标签映射的影响。我们研究了两种设置——带有翻转标签的 ICL 和带有语义无关标签的 ICL——跨越各种模型系列(GPT-3、InstructGPT、Codex、PaLM 和 Flan-PaLM)。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Top Papers


Subjects: cs.CL  


1.Larger language models do in-context learning differently

ef901a047ced7daaa0b4706082ab6e9e.png

标题:更大的语言模型以不同的方式进行上下文学习

作者:Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen

文章链接:https://arxiv.org/abs/2303.01037

7b5af81e186fb01090ec19ebde432d81.png

9df69e74d37611e10e0449ffb624f85c.png

708a9c043ed45e65270b8c801a329cd0.png

f6ef4d925e2c2fe3e3cdc50a7401b12f.png

       我们研究了语言模型中的上下文学习 (ICL) 如何受到语义先验与输入标签映射的影响。我们研究了两种设置——带有翻转标签的 ICL 和带有语义无关标签的 ICL——跨越各种模型系列(GPT-3、InstructGPT、Codex、PaLM 和 Flan-PaLM)。首先,带有翻转标签的 ICL 实验表明,覆盖语义先验是模型规模的一种新兴能力。虽然小型语言模型忽略上下文中呈现的翻转标签,因此主要依赖于预训练的语义先验,但大型模型可以在呈现与先验相矛盾的上下文范例时覆盖语义先验,尽管更大的模型可能拥有更强的语义先验。我们接下来研究语义无关标签 ICL (SUL-ICL),其中标签与其输入在语义上无关(例如,foo/bar 而不是负/正),从而迫使语言模型学习中所示的输入-标签映射-上下文范例以执行任务。进行 SUL-ICL 的能力也主要随着规模而出现,足够大的语言模型甚至可以在 SUL-ICL 设置中执行线性分类。最后,我们评估了指令调整模型,发现指令调整加强了语义先验的使用和学习输入标签映射的能力,但更多的是前者。

8f73d3e438c83eef9cddd11265c9035e.gif

上榜理由

       该论文声称,具有语义无关标签的上下文学习随着规模而出现。您可以在下图中看到“当使用语义无关目标或 NL 目标时,小型模型的性能下降幅度大于大型模型。”

       论文中有许多很酷的结果:指令调整的 LM 在学习输入标签映射方面比仅预训练的 LM 表现更好。通常,更大的模型和每个类的更多范例会产生更好的结果。

       有了规模,LLM 可以在提供足够多的翻转标签时覆盖语义先验;当用语义无关的目标替换目标时,这些模型也能表现良好。

2.Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

2936719a6b902afb033a5059a3eb2d26.png

标题:Google USM:扩展超过 100 种语言的自动语音识别

作者:Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen

文章链接:https://arxiv.org/abs/2303.01037

524ce4d2821ec5dc5abc00394bccb70b.png

b579dbb65e4c27fd4b295d54740b3a5b.png

b69bc04327620f3f3d55db636a645c94.png

ef71a1ed9d5b26e73a44250c81631218.png

       我们介绍了通用语音模型 (USM),这是一个单一的大型模型,可在 100 多种语言中执行自动语音识别 (ASR)。这是通过在跨越 300 多种语言的 1200 万 (M) 小时的大型未标记多语言数据集上对模型的编码器进行预训练,并在较小的标记数据集上进行微调来实现的。我们使用具有随机投影量化和语音文本模态匹配的多语言预训练来实现下游多语言 ASR 和语音到文本翻译任务的最先进性能。我们还证明,尽管使用的标记训练集的大小是 Whisper 模型所用训练集的 1/7,但我们的模型在跨多种语言的域内和域外语音识别任务上表现出相当或更好的性能。

3.More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

ac11870f71c16c42b72b79fc88042733.png

标题:超出您的要求:对应用程序集成大型语言模型的新型快速注入威胁的综合分析

作者:Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant

文章链接:https://arxiv.org/abs/2302.12173v1

项目代码:https://github.com/greshake/lm-safety

612655ed5ec69c8743295f834a8a307e.png

e8f983652b32fbe89cca0ed0096f08b2.png

1864fae32adab61aaa31d1f5a3d583ee.png

b35dfd6280372355ba41c347d5d8bbcb.png

       我们目前正在见证大型语言模型 (LLM) 功能的巨大进步。它们已经在实践中被采用并集成到许多系统中,包括集成开发环境 (IDE) 和搜索引擎。当前 LLM 的功能可以通过自然语言提示进行调整,而它们确切的内部功能仍然隐含且不可评估。这种特性使它们甚至可以适应看不见的任务,也可能使它们容易受到有针对性的对抗性提示的影响。最近,引入了几种使用提示注入 (PI) 攻击来错位 LLM 的方法。在此类攻击中,对手可以提示 LLM 生成恶意内容或覆盖原始指令和采用的过滤方案。最近的工作表明,这些攻击很难缓解,因为最先进的 LLM 是遵循指令的。到目前为止,这些攻击假设对手直接提示 LLM。在这项工作中,我们展示了通过检索和 API 调用功能(所谓的应用程序集成 LLM)增强 LLM 会引发一组全新的攻击向量。这些 LLM 可能会处理从 Web 检索到的有毒内容,这些内容包含由对手预先注入和选择的恶意提示。我们证明攻击者可以间接执行此类 PI 攻击。基于这一重要见解,我们系统地分析了应用程序集成 LLM 所产生的威胁格局,并讨论了各种新的攻击向量。为了证明我们攻击的实际可行性,我们在合成应用程序中实施了拟议攻击的具体演示。总之,我们的工作要求对当前的缓解技术进行紧急评估,并调查是否需要新技术来保护 LLM 免受这些威胁。

Subjects: cs.CV


1.Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models


标题:Visual ChatGPT:使用 Visual Foundation 模型交谈、绘图和编辑

作者:Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

文章链接:https://t.co/0nYSa7CupY

项目代码:https://github.com/microsoft/visual-chatgpt

c70da80d3a82efcd9c7e1836e0fe80ff.png

fccf7bbf520037f619bf37ea98e0a756.png

d879f549c7bbb48b9e0cb463a8b15c7a.png

ce1370774285f68ce90e1255a634881d.png

       ChatGPT 正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。然而,由于 ChatGPT 是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models,如 Visual Transformers 或 Stable Diffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。为此,我们构建了一个名为 \textbf{Visual ChatGPT} 的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互:1)不仅发送和接收语言,还发送和接收图像 2)提供复杂的视觉问题或视觉编辑需要多个 AI 模型多步骤协作的指令。3) 提供反馈并要求更正结果。我们设计了一系列提示将视觉模型信息注入 ChatGPT,考虑到多个输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT 打开了借助 Visual Foundation Models 研究 ChatGPT 视觉角色的大门。

8f73d3e438c83eef9cddd11265c9035e.gif

上榜理由

       构建一个名为 Visual ChatGPT 的系统,结合不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互:1)不仅发送和接收语言,还发送和接收图像 2)提供需要多个 AI 协作的复杂视觉问题或视觉编辑指令具有多步骤的模型。3)提供反馈并要求更正结果。  

       它使用 ChatGPT 作为中央通信枢纽,并插入许多黑盒视觉模型,例如 Stable Diffusion、pix2pix 和 ControlNet。结果是一个多模态会话人工智能,它既能理解又能生成图像,具有零可训练参数。    

2.GigaGAN: Large-scale GAN for Text-to-Image Synthesis(CVPR 2023)

a96feebb6b5577befff35a9c7f65aae3.png

标题:GigaGAN:用于文本到图像合成的大规模 GAN

作者:Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park

文章链接:https://arxiv.org/abs/2303.05511

项目代码:https://mingukkang.github.io/GigaGAN/

50979a7ccf161e14c6a59d5cf281ff3d.png

dff4224297e3de8a7743970cd713dd2a.png

80af176ce049b40de3b00d94797193b8.png

47d92b8fba221c8c2363c1148193b039.png

       最近文本到图像合成的成功席卷了世界,并俘获了公众的想象力。从技术的角度来看,它也标志着设计生成图像模型的首选架构发生了巨大变化。GAN 曾经是事实上的选择,采用 StyleGAN 等技术。借助 DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准。这种快速转变提出了一个基本问题:我们能否扩大 GAN 以从像 LAION 这样的大型数据集中获益?我们发现,天真地增加 StyleGAN 架构的容量会很快变得不稳定。我们介绍了 GigaGAN,这是一种远远超过此限制的新 GAN 架构,展示了 GAN 作为文本到图像合成的可行选择。GigaGAN 具有三大优势。首先,它在推理时间上快了几个数量级,合成一张 512 像素的图像仅需 0.13 秒。其次,它可以在 3.66 秒内合成高分辨率图像,例如 16 兆像素。最后,GigaGAN 支持各种潜在空间编辑应用,例如潜在插值、样式混合和向量算术运算。

3.Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

40ba21a988033448f7c6ac3b038306bd.png

标题:使用文本到图像扩散模型的开放词汇全景分割

作者:Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello

文章链接:https://arxiv.org/abs/2303.04803

项目代码:https://jerryxu.net/ODISE/

a8a48eb7e9aaf9966295ff7ea767e96a.png

32b0e278b4fe7e99feb299658ecddc3a.png

1dcf2f35653e43c46227047e000a2d9c.png

       我们提出了 ODISE:基于开放词汇扩散的全景分割,它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。文本到图像的扩散模型显示了生成具有多种开放式词汇语言描述的高质量图像的卓越能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面,像 CLIP 这样的文本图像判别模型擅长将图像分类为开放式词汇标签。我们建议利用这两个模型的冻结表示来执行野外任何类别的全景分割。我们的方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是,仅通过 COCO 训练,我们的方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU,与之前的最新技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。

4.A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

3ab32bb6f8825f25dff9d374cd328a20.png

标题:AI 生成内容 (AIGC) 综述:从 GAN 到 ChatGPT 的生成 AI 历史

作者:Yihan Cao, Siyu Li, Yixin Liu, Zhiling Yan, Yutong Dai, Philip S. Yu, Lichao Sun

文章链接:https://arxiv.org/abs/2302.04761

7c5f685b56d6f778f49216911a19a208.png

e455a8dbdb1bf385f700d0efe019a7dc.png

48bf9ca25ec6d28aad7f66779545fb72.png

c19df241b74d4ea93ae83b34ade4ec20.png

       最近,ChatGPT 与 DALL-E-2 和 Codex 一起受到了社会的广泛关注。因此,许多人对相关资源产生了兴趣,并试图揭开其出色表现背后的背景和秘密。实际上,ChatGPT 和其他生成式人工智能 (GAI) 技术属于人工智能生成内容 (AIGC) 的范畴,涉及通过人工智能模型创建数字内容,例如图像、音乐和自然语言。AIGC 的目标是使内容创建过程更加高效和易于访问,从而能够以更快的速度制作高质量的内容。AIGC是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。近年来,大型模型在 AIGC 中变得越来越重要,因为它们提供了更好的意图提取,从而改进了生成结果。随着数据的增长和模型的规模,模型可以学习的分布变得更加全面和接近现实,从而导致更真实和高质量的内容生成。本调查全面回顾了生成模型的历史、基本组件、AIGC 从单模态交互和多模态交互的最新进展。我们从单峰性的角度介绍了文本和图像的生成任务和相关模型。我们从多模态的角度来介绍上述模态之间的交叉应用。最后,我们讨论了 AIGC 中存在的开放性问题和未来的挑战。

Notable Papers


1.Consistency Models


标题:一致性模型

文章链接:https://arxiv.org/abs/2302.12253

e511062d13772cb67517a0d59b944a93.png

acbea65b1da10e96351d2ff9d2a40c1e.png

摘要:

       扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,导致采样速度缓慢并限制了它们在实时应用中的潜力。为了克服这个限制,我们提出了一致性模型,这是一个新的生成模型家族,无需对抗训练即可实现高样本质量。它们通过设计支持快速一步生成,同时仍然允许几步采样以用计算换取样本质量。它们还支持零镜头数据编辑,例如图像修复、着色和超分辨率,而无需对这些任务进行明确的培训。一致性模型可以作为提取预训练扩散模型的一种方式进行训练,也可以作为独立的生成模型进行训练。通过广泛的实验,我们证明它们在一步生成和几步生成中优于现有的扩散模型蒸馏技术。例如,我们在 CIFAR-10 上实现了新的最先进的 FID 3.55,在 ImageNet 64x64 上实现了 6.20 的一步生成。当作为独立的生成模型进行训练时,一致性模型在 CIFAR-10、ImageNet 64x64 和 LSUN 256x256 等标准基准测试中的表现也优于单步、非对抗性生成模型。

2.Word-As-Image for Semantic Typography


标题:语义排版的文字图像

文章链接:https://arxiv.org/abs/2302.12238

525e2544beaf4075af5d935ac6405287.png

摘要:

       文字即图像是一种语义排版技术,其中文字插图呈现了文字含义的可视化,同时还保留了其可读性。我们提出了一种自动创建文字图像插图的方法。这项任务非常具有挑战性,因为它需要对单词的语义理解以及关于在何处以及如何以视觉上令人愉悦和清晰的方式描述这些语义的创造性想法。我们依靠最近大型预训练语言视觉模型的卓越能力来直观地提炼文本概念。我们的目标是清晰传达语义的简单、简洁、黑白设计。我们刻意不改变字母的颜色或质地,也不使用装饰。我们的方法在预训练的稳定扩散模型的指导下优化每个字母的轮廓以传达所需的概念。我们合并了额外的损失条款,以确保文本的易读性和字体样式的保留。我们在众多示例中展示了高质量和引人入胜的结果,并与其他技术进行了比较。

3.Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners


标题:提示、生成,然后缓存:基础模型的级联使强大的小样本学习者成为可能

文章链接:https://arxiv.org/abs/2303.02151

项目代码:https://github.com/ZrrSkywalker/CaFo

a86a2b6a4a45baa340904d37e9236660.png

861699dbeef4c7e6701714ca58601566.png

0a8c7bb0387440f29ca51d3969a3f785.png

摘要:

       低数据条件下的视觉识别需要深度神经网络从有限的训练样本中学习广义表示。最近,基于 CLIP 的方法已经显示出有前途的小样本性能,这得益于对比语言图像预训练。然后我们质疑,是否可以级联更多样化的预训练知识以进一步协助少镜头表示学习。在本文中,我们提出了 CaFo,这是一个级联的基础模型,它结合了各种预训练范式的各种先验知识,以实现更好的少样本学习。我们的 CaFo 结合了 CLIP 的语言对比知识、DINO 的视觉对比知识、DALL-E 的视觉生成知识和 GPT-3 的语言生成知识。具体来说,CaFo 的工作原理是“提示、生成,然后缓存”。首先,我们利用 GPT-3 生成文本输入,以提示具有丰富下游语言语义的 CLIP。然后,我们通过 DALL-E 生成合成图像,以在没有任何人力的情况下扩展小样本训练数据。最后,我们引入了一个可学习的缓存模型来自适应地混合来自 CLIP 和 DINO 的预测。通过这样的合作,CaFo 可以充分发挥不同预训练方法的潜力,并将它们统一起来,以执行最先进的小样本分类。

目录
相关文章
|
1月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
210 0
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
AI_Papers周刊:第六期
大型语言模型 (LLM) 因其令人印象深刻的能力而广受欢迎,但对特定于模型的微调或特定于任务的提示工程的需求可能会阻碍它们的泛化。我们提出了 UPRISE(用于改进零样本评估的通用提示检索),它调整了一个轻量级且多功能的检索器,该检索器可以自动检索给定零样本任务输入的提示。
105 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI_News周刊:第六期
3月16日下午,文心一言发布会在百度科技园举行。百度创始人李彦宏介绍,百度在过去十几年间一直在AI研发上持续投入,文心大模型的第一个版本在2019年就发布了,此后每一年都要发布一个新的版本。“全球大厂中百度是第一个发布的”,李彦宏坦承,这段时间不断有人问他为什么现在发布文心一言,百度是否真的准备好了
54 0
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
AI_News周刊:第五期
OpenAI 以比预期低得多的价格发布了 ChatGPT 和 Whisper API,部分原因是为了响应开源 LLM 和竞争对手模型的进步。ChatGPT 可通过 GPT-Turbo 以每 1k 代币 0.002 美元的价格获得,比其达芬奇模型便宜 10 倍(9 月份其价格降低了 3 倍)并且与 OpenAI 较小的居里模型的定价一致(居里估计为7-100 亿个参数对比达芬奇的 1750 亿个参数)。
79 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI_Papers周刊:第四期
语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。在这项工作中,我们介绍了 Kosmos-1,这是一种多模态大型语言模型 (MLLM),它可以感知一般模态、在上下文中学习(即少镜头)并遵循指令(即零镜头)。
166 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI_News周刊:第四期
据两位直接了解这项工作的人士和另一位了解情况的人士透露,埃隆·马斯克最近几周与人工智能研究人员接洽,商讨成立一个新的研究实验室,以开发 ChatGPT 的替代品,ChatGPT 是初创公司 OpenAI 开发的备受瞩目的聊天机器人。
67 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI_Papers周刊:第三期
我们介绍了 LLaMA,这是一组基础语言模型,参数范围从 7B 到 65B。我们在数万亿个令牌上训练我们的模型,并表明可以仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可与最佳模型 Chinchilla70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。
51 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI_News周刊:第三期
2023 年 2 月 21 日——贝恩公司今天宣布与 OpenAI 建立全球服务联盟,OpenAI 是人工智能系统 ChatGPT、DALL·E 和 Codex 背后的研究和部署公司,这些系统正在改变人们交流和创造的方式。贝恩和 OpenAI 正在合作,将 OpenAI 的突破性功能带给全球客户。通过该联盟,贝恩将其深厚的数字化实施能力和战略专长与 OpenAI 的人工智能工具和平台(包括 ChatGPT)相结合,帮助其全球客户识别和实施人工智能的价值,以最大限度地发挥商业潜力。
51 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
AI_Papers周刊:第二期
心理理论 (ToM),或将不可观察的心理状态归因于他人的能力,是人类社会互动、沟通、同理心、自我意识和道德的核心。我们在没有任何示例或预训练的情况下,对多种语言模型执行广泛用于测试人类 ToM 的经典错误信念任务。我们的结果表明,2022 年之前发布的模型几乎没有能力解决 ToM 任务。
95 0
|
11月前
|
人工智能 自然语言处理 机器人
AI_News周刊:第二期
这一转变标志着自社交媒体以来最重要的技术突破。近几个月来,好奇、震惊的公众如饥似渴地采用了生成式人工智能工具,这要归功于诸如 ChatGPT 之类的程序,它对几乎任何查询做出连贯(但并不总是准确)的响应,以及 Dall-E,它允许你召唤任何你想要的图像做梦。1 月份,ChatGPT 的月用户达到 1 亿,采用率高于 Instagram 或 TikTok。从 Midjourney 到 Stable Diffusion 再到 GitHub 的 Copilot,数以百计同样惊人的生成式 AI 都在呼吁采用,它可以让你将简单的指令转化为计算机代码。
67 0