7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(1)

简介: 7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布

本周论文包括:受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点;计算机理论顶会 STOC2022 奖项公布。


目录

A Generalist Agent

Language Models Can See: Plugging Visual Controls in Text Generation

The Optimal Error Resilience of Interactive Communication Over Binary Channels

The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs

Locally Testable Codes with constant rate, distance, and locality

GANimator: Neural Motion Synthesis from a Single Sequence

Translation between Molecules and Natural Language

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:A Generalist Agent


摘要:假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。

近日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。


Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。

在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。

下图为 Gato 的训练流程。

推荐:DeepMind「通才」AI 智能体 Gato 来了,多模态、多任务,受大语言模型启发。

论文 2:Language Models Can See: Plugging Visual Controls in Text Generation


摘要:来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。

为了适应特定跨模态任务的文本领域,该研究预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用 MLE 损失函数训练语言模型的参数:

此外,SimCTG[2] 的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的语言模型。因此,本文也同时优化如下的对比损失:

其中 p 是用来校准生成模型表示空间的 margin 参数,s 用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 语言模型:

推荐:即插即用、无需训练:剑桥大学、腾讯 AI Lab 等提出免训练跨模态文本生成框架。

论文 3:The Optimal Error Resilience of Interactive Communication Over Binary Channels


摘要:在交互式编码中,Alice 和 Bob 希望计算它们各自私有输入 x 和 y 的某个函数 f,并通过参与非自适应(固定顺序和固定长度)交互式协议进行联合计算 f(x, y) 。它们的目标是以一种容错方式做到,这样一来,即使对协议施加了部分对抗性破坏,双方仍可以学习 f(x, y)。

在这项工作中,研究者探究了这种协议在面对对抗性位翻转性或擦除时的最优抗误码能力。虽然这种协议在大型字母表上的最优抗误码能力是众所周知的,但在二进制字母表上的情况仍然未知。因此,研究者解决了在二进制信道上确定最优抗误码能力。

具体而言,研究者构建的协议能够在二进制位翻转信道上实现 1/6 抗误码和在二进制擦除信道上实现 1/2 抗误码,这两者的匹配上限都是已知的。他们还注意到,二进制位翻转协议的通信复杂度在输入大小上是多项式的,而二进制擦除协议的通信复杂度在最小无噪声协议计算 f 的大小上是线性的。
协议 1。

推荐:计算机理论顶会 STOC2022 最佳学生论文。

论文 4:The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs


摘要:密码学需要多少计算资源?这是一个既有理论意义又有实际意义的重要问题。本文研究了电路复杂性背景下的伪随机函数(pseudorandom functions,PRFs)问题。令人惊讶的是,该研究在各种电路模型中证明了极其严格的上限和下限。

在一般的 B_2 电路中,假设存在 PRF,PRF 可以构建为 2n + o(n) 大小,这简化和改进了 Ishai 等人限制的 O(n)。该研究通过给出无条件的 2n - O(1) 下限来证明这种构造几乎是最优的;

在对数深度电路(logarithmic depth circuits)中,假设存在 NC^1 PRF,PRF 可以同时构建为 2n + o(n) 大小和 (1 + ε)log n 深度;

在恒定深度线性阈值电路中,假设存在 TC^0 PRF,PRF 可以用导线复杂度构建。该研究还给出了某个常数 c 的 线复杂度下限。


值得一提的是,这篇获奖论文的三位作者范致远(计科 91)、李嘉图(计科 92)、杨天祺(计科 92),他们都是清华姚班本科生。三个人均以保送方式进入清华大学, 杨天祺、李嘉图还曾荣获第 44 届 ICPC 国际大学生程序设计竞赛东亚大陆决赛金牌。

推荐:计算机理论顶会 STOC2022 最佳学生论文。


相关文章
|
1天前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
34 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
1天前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
118 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
1天前
|
人工智能 Java TensorFlow
基于Tensorflow技术开发的计算机毕业设计辅助生成器(使用AI大模型技术)
基于Tensorflow技术开发的计算机毕业设计辅助生成器(使用AI大模型技术)
168 0
|
9月前
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
111 0
|
11月前
|
机器学习/深度学习 存储 人工智能
7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
411 0
|
11月前
|
机器学习/深度学习 存储 人工智能
AI重写排序算法,速度快70%:DeepMind AlphaDev革新计算基础,每天调用万亿次的库更新了
AI重写排序算法,速度快70%:DeepMind AlphaDev革新计算基础,每天调用万亿次的库更新了
124 0
|
12月前
|
机器学习/深度学习 人工智能 算法
合并DeepMind和Google Brain,谷歌迎来AI新时代
合并DeepMind和Google Brain,谷歌迎来AI新时代
合并DeepMind和Google Brain,谷歌迎来AI新时代
|
12月前
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
129 0
|
12月前
|
人工智能 自然语言处理 搜索推荐
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(2)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
105 0
|
12月前
|
Web App开发 人工智能 前端开发
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(1)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind

热门文章

最新文章