8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2（1）

2023-05-09 491

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2

看完一篇AI论文，要是发现代码没公开，心就得凉半截，瞬间对实验结果都要开始怀疑。

最近有网友收集了八月份发表的10642篇AI论文，发现其中90.9%的论文都没有公开代码。

在公开的一千份代码中，根据其在GitHub上收获Stars数量做了一个排行榜，排名前二的论文都是语言-图像模型相关的研究。

文末还有在推特上排行前十的AI研究列表，部分只有论文，没有代码。

1. 用一个词描述一张图

Text-to-image模型通过自然语言来指导创作图像，提供了前所未有的自由度。

但目前还不清楚如何利用这种自由来生成指定的、具有独特概念的图像，或者修改图像的外观，或将它们组成新的角色和新的场景。

可以用一个简单的问题来描述：我们如何利用language-guided模型把「自己的」猫变成一幅画，或者在「自己最喜欢的」玩具的基础上想象出一个新产品？

来自特拉维夫大学和英伟达的研究人员提出了一个简单的方法，只需使用3-5张用户提供的图片，比如一个物体或一种风格，无需微调text-to-image模型，即可在通过新的word在embedding空间中学习表示用户输入。

论文链接：https://arxiv.org/abs/2208.01618

项目链接：https://textual-inversion.github.io/

代码链接：https://github.com/rinongal/textual_inversion

这些word可以作为自然语言句子中的一部分，以更直观的方式来指导个性化的创作。

比如输入一些用户图片，即可生成一个特殊的word来表示该风格或物体。

甚至还可以在自然语言句子中组合多个新words

值得注意的是，研究人员发现有证据表明，单个词的embedding足以捕捉到独特且多样的概念。

在将该方法与大量的基线模型进行比较后，可以证明它能更忠实地描绘一系列应用和任务中的概念。

2. 从语言-图像到视频

经过对比学习训练的「图像文本模型」在从整个「互联网规模」的数据中学习visual-textual联合表征方面取得了巨大成功，并在各种图像任务中表现出超强的zero-shot泛化能力。

但我们该如何将这种新的language-image预训练方法有效地扩展到视频领域？目前仍然是一个开放的问题。

来自微软研究院、中国科学院、石溪大学和罗切斯特大学的研究人员提出了一个简单而有效的方法，可以将预训练的language-image方法直接用于视频识别，而不必从头开始预训练一个新的模型。

论文链接：https://arxiv.org/abs/2208.02816

代码链接：https://github.com/microsoft/videox

具体来说，为了捕捉视频帧在时间维度上的长距离依赖性，文中提出了一个跨帧注意力（cross-frame attention）机制，显式地交换不同帧之间的信息。

这样设计得到的模块是轻量级的，可以可以无缝地插入到预训练的语言-图像模型中。

此外，研究人员还提出了一个针对视频的prompt模式，能够利用视频的内容信息来生成有辨识度的文本提示。

经过大量的实验后，可以证明该方法是有效的，并且能够被推广到不同的视频识别场景。

在完全监督（fully-supervised）的情况下，该方法在Kinectics-400上达到了87.1%的top-1准确率，并且FLOPs仅为Swin-L和ViViT-H的十二分之一。

在zero-shot实验中，在两个常用的协议下，该方法以+7.6%和+14.9%的最高准确率超过了目前的sota方法。

在few-shot实验中，当标签数据极其有限时，该方法比以前的最佳方法高出+32.1%和+23.1%

3. 无需噪声的扩散模型

目前业界出现的扩散（Diffusion）模型变体层出不穷，但「随机噪声」是不变的核心。

标准的扩散模型包括图像变换（image transform），添加高斯噪声，和一个反转图像退化的恢复算子。

来自马里兰大学和纽约大学的研究人员观察到，扩散模型的生成行为并不依赖于图像退化的选择，事实上，通过改变这种选择，可以构建整个生成模型系列。

论文链接：https://arxiv.org/abs/2208.09392

代码链接：https://github.com/arpitbansal297/cold-diffusion-models

即使在使用完全确定的退化（如模糊、遮蔽等）时，作为扩散模型基础的训练和测试时间更新规则也可以很容易地被泛化以创建生成模型。

这些完全确定的模型的成功使人们对社区对扩散模型的理解产生了疑问，这种理解依赖于梯度朗文动力学（gradient Langevin dynamics）或变分推理中的噪声，并为反转任意过程的泛化扩散模型铺平了道路。

在这篇论文中，作者不再将扩散模型局限于「依赖高斯噪声而建立」，而是提出了围绕模糊（blurring）、下采样（downsampling）等任意图像变换方式建立的广义扩散模型。

由于不再有原先的「高温」状态，这种全新广义扩散模型也就被称作为 Cold Diffusion。

4. 让大模型走进消费级GPU

大型语言模型目前已成为主流NLP研究的基础，但使用大模型需要大量的GPU内存进行推理。

论文链接：https://arxiv.org/abs/2208.07339

代码链接：https://github.com/timdettmers/bitsandbytes

来自华盛顿大学、Meta AI研究院、Hugging Face的研究人员为Transformer中的前馈和注意力投影层开发了一个Int8矩阵乘法的程序，使得推理所需的内存减少了一半，同时还能保持全精度的性能。

使用该方法，可以很方便地加载一个175B参数的16/32位checkpoint，转换为Int8后，也不会出现性能下降的情况。

想要做到这一点，需要通过理解和绕过Transformer语言模型中高度系统化的突发特征的特性来进行实现，这些特征主导着注意力和Transformer的预测性能。

为了应对这些特征，研究人员开发了一个由两部分组成的量化（quantization）程序：LLM.int8()。首先使用矢量量化，对矩阵乘法中的每个内积都使用单独的归一化常数，以量化大多数特征。

对于出现的异常值，文中还提出一个新的混合精度分解方案，该方案将异常值特征维度隔离到16位的矩阵乘法中，与此同时仍有超过99.9%的值是以8位乘法的。

根据经验表明，使用LLM.int8()可以在参数高达175B的LLM中进行推理而不会有任何性能下降。

该项目也使得这种大模型的使用场景更广泛，例如，有可能在装有消费级GPU的单一服务器上使用OPT-175B/BLOOM

8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2（1）

1. 用一个词描述一张图

2. 从语言-图像到视频

3. 无需噪声的扩散模型

4. 让大模型走进消费级GPU

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景