本周论文包括:受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点;计算机理论顶会 STOC2022 奖项公布。
目录
A Generalist Agent
Language Models Can See: Plugging Visual Controls in Text Generation
The Optimal Error Resilience of Interactive Communication Over Binary Channels
The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs
Locally Testable Codes with constant rate, distance, and locality
GANimator: Neural Motion Synthesis from a Single Sequence
Translation between Molecules and Natural Language
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:A Generalist Agent
- 作者:Scott Reed 、 Konrad Żołna 等
- 论文链接:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
摘要:假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。
近日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。
Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。
与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。
Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。
在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。
下图为 Gato 的训练流程。
推荐:DeepMind「通才」AI 智能体 Gato 来了,多模态、多任务,受大语言模型启发。
论文 2:Language Models Can See: Plugging Visual Controls in Text Generation
- 作者:Yixuan Su 、 Tian Lan 等
- 论文链接:https://arxiv.org/abs/2205.02655
摘要:来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。
为了适应特定跨模态任务的文本领域,该研究预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用 MLE 损失函数训练语言模型的参数:
此外,SimCTG[2] 的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的语言模型。因此,本文也同时优化如下的对比损失:
其中 p 是用来校准生成模型表示空间的 margin 参数,s 用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 语言模型:
推荐:即插即用、无需训练:剑桥大学、腾讯 AI Lab 等提出免训练跨模态文本生成框架。
论文 3:The Optimal Error Resilience of Interactive Communication Over Binary Channels
- 作者:Meghal Gupta、 Rachel Yun Zhang
- 论文链接:https://arxiv.org/pdf/2110.15395.pdf
摘要:在交互式编码中,Alice 和 Bob 希望计算它们各自私有输入 x 和 y 的某个函数 f,并通过参与非自适应(固定顺序和固定长度)交互式协议进行联合计算 f(x, y) 。它们的目标是以一种容错方式做到,这样一来,即使对协议施加了部分对抗性破坏,双方仍可以学习 f(x, y)。
在这项工作中,研究者探究了这种协议在面对对抗性位翻转性或擦除时的最优抗误码能力。虽然这种协议在大型字母表上的最优抗误码能力是众所周知的,但在二进制字母表上的情况仍然未知。因此,研究者解决了在二进制信道上确定最优抗误码能力。
具体而言,研究者构建的协议能够在二进制位翻转信道上实现 1/6 抗误码和在二进制擦除信道上实现 1/2 抗误码,这两者的匹配上限都是已知的。他们还注意到,二进制位翻转协议的通信复杂度在输入大小上是多项式的,而二进制擦除协议的通信复杂度在最小无噪声协议计算 f 的大小上是线性的。
协议 1。
推荐:计算机理论顶会 STOC2022 最佳学生论文。
论文 4:The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs
- 作者:范致远、李嘉图、杨天祺
- 论文链接:https://eccc.weizmann.ac.il/report/2021/125
摘要:密码学需要多少计算资源?这是一个既有理论意义又有实际意义的重要问题。本文研究了电路复杂性背景下的伪随机函数(pseudorandom functions,PRFs)问题。令人惊讶的是,该研究在各种电路模型中证明了极其严格的上限和下限。
在一般的 B_2 电路中,假设存在 PRF,PRF 可以构建为 2n + o(n) 大小,这简化和改进了 Ishai 等人限制的 O(n)。该研究通过给出无条件的 2n - O(1) 下限来证明这种构造几乎是最优的;
在对数深度电路(logarithmic depth circuits)中,假设存在 NC^1 PRF,PRF 可以同时构建为 2n + o(n) 大小和 (1 + ε)log n 深度;
在恒定深度线性阈值电路中,假设存在 TC^0 PRF,PRF 可以用导线复杂度构建。该研究还给出了某个常数 c 的 线复杂度下限。
值得一提的是,这篇获奖论文的三位作者范致远(计科 91)、李嘉图(计科 92)、杨天祺(计科 92),他们都是清华姚班本科生。三个人均以保送方式进入清华大学, 杨天祺、李嘉图还曾荣获第 44 届 ICPC 国际大学生程序设计竞赛东亚大陆决赛金牌。
推荐:计算机理论顶会 STOC2022 最佳学生论文。