8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(1)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

看完一篇AI论文,要是发现代码没公开,心就得凉半截,瞬间对实验结果都要开始怀疑。


最近有网友收集了八月份发表的10642篇AI论文,发现其中90.9%的论文都没有公开代码。


在公开的一千份代码中,根据其在GitHub上收获Stars数量做了一个排行榜,排名前二的论文都是语言-图像模型相关的研究。



文末还有在推特上排行前十的AI研究列表,部分只有论文,没有代码。


1. 用一个词描述一张图


Text-to-image模型通过自然语言来指导创作图像,提供了前所未有的自由度。


但目前还不清楚如何利用这种自由来生成指定的、具有独特概念的图像,或者修改图像的外观,或将它们组成新的角色和新的场景。


可以用一个简单的问题来描述:我们如何利用language-guided模型把「自己的」猫变成一幅画,或者在「自己最喜欢的」玩具的基础上想象出一个新产品?


来自特拉维夫大学和英伟达的研究人员提出了一个简单的方法,只需使用3-5张用户提供的图片,比如一个物体或一种风格,无需微调text-to-image模型,即可在通过新的word在embedding空间中学习表示用户输入。


论文链接:https://arxiv.org/abs/2208.01618

项目链接:https://textual-inversion.github.io/

代码链接:https://github.com/rinongal/textual_inversion


这些word可以作为自然语言句子中的一部分,以更直观的方式来指导个性化的创作。



比如输入一些用户图片,即可生成一个特殊的word来表示该风格或物体。



甚至还可以在自然语言句子中组合多个新words



值得注意的是,研究人员发现有证据表明,单个词的embedding足以捕捉到独特且多样的概念。


在将该方法与大量的基线模型进行比较后,可以证明它能更忠实地描绘一系列应用和任务中的概念。


2. 从语言-图像到视频


经过对比学习训练的「图像文本模型」在从整个「互联网规模」的数据中学习visual-textual联合表征方面取得了巨大成功,并在各种图像任务中表现出超强的zero-shot泛化能力。


但我们该如何将这种新的language-image预训练方法有效地扩展到视频领域?目前仍然是一个开放的问题。


来自微软研究院、中国科学院、石溪大学和罗切斯特大学的研究人员提出了一个简单而有效的方法,可以将预训练的language-image方法直接用于视频识别,而不必从头开始预训练一个新的模型。


论文链接:https://arxiv.org/abs/2208.02816

代码链接:https://github.com/microsoft/videox


具体来说,为了捕捉视频帧在时间维度上的长距离依赖性,文中提出了一个跨帧注意力(cross-frame attention)机制,显式地交换不同帧之间的信息。



这样设计得到的模块是轻量级的,可以可以无缝地插入到预训练的语言-图像模型中。


此外,研究人员还提出了 一个针对视频的prompt模式,能够利用视频的内容信息来生成有辨识度的文本提示。


经过大量的实验后,可以证明该方法是有效的,并且能够被推广到 不同的视频识别场景。


在完全监督(fully-supervised)的情况下,该方法在Kinectics-400上达到了87.1%的top-1准确率,并且FLOPs仅为Swin-L和ViViT-H的十二分之一。



在zero-shot实验中,在两个常用的协议下,该方法以+7.6%和+14.9%的最高准确率超过了目前的sota方法。


在few-shot实验中,当标签数据极其有限时,该方法比以前的最佳方法高出+32.1%和+23.1%


3. 无需噪声的扩散模型


目前业界出现的扩散(Diffusion)模型变体层出不穷,但「随机噪声」是不变的核心。


标准的扩散模型包括图像变换(image transform),添加高斯噪声,和一个反转图像退化的恢复算子。


来自马里兰大学和纽约大学的研究人员观察到,扩散模型的生成行为并不依赖于图像退化的选择,事实上,通过改变这种选择,可以构建整个生成模型系列。


论文链接:https://arxiv.org/abs/2208.09392

代码链接:https://github.com/arpitbansal297/cold-diffusion-models


即使在使用完全确定的退化(如模糊、遮蔽等)时,作为扩散模型基础的训练和测试时间更新规则也可以很容易地被泛化以创建生成模型。


这些完全确定的模型的成功使人们对社区对扩散模型的理解产生了疑问,这种理解依赖于梯度朗文动力学(gradient Langevin dynamics)或变分推理中的噪声,并为反转任意过程的泛化扩散模型铺平了道路。



在这篇论文中,作者不再将扩散模型局限于「依赖高斯噪声而建立」,而是提出了围绕模糊(blurring)、下采样(downsampling)等任意图像变换方式建立的广义扩散模型。


由于不再有原先的「高温」状态,这种全新广义扩散模型也就被称作为 Cold Diffusion。


4. 让大模型走进消费级GPU


大型语言模型目前已成为主流NLP研究的基础,但使用大模型需要大量的GPU内存进行推理。


论文链接:https://arxiv.org/abs/2208.07339

代码链接:https://github.com/timdettmers/bitsandbytes


来自华盛顿大学、Meta AI研究院、Hugging Face的研究人员为Transformer中的前馈和注意力投影层开发了一个Int8矩阵乘法的程序,使得推理所需的内存减少了一半,同时还能保持全精度的性能。


使用该方法,可以很方便地加载一个175B参数的16/32位checkpoint,转换为Int8后,也不会出现性能下降的情况。



想要做到这一点,需要通过理解和绕过Transformer语言模型中高度系统化的突发特征的特性来进行实现,这些特征主导着注意力和Transformer的预测性能。


为了应对这些特征,研究人员开发了一个由两部分组成的量化(quantization)程序:LLM.int8()。首先使用矢量量化,对矩阵乘法中的每个内积都使用单独的归一化常数,以量化大多数特征。


对于出现的异常值,文中还提出一个新的混合精度分解方案,该方案将异常值特征维度隔离到16位的矩阵乘法中,与此同时仍有超过99.9%的值是以8位乘法的。


根据经验表明,使用LLM.int8()可以在参数高达175B的LLM中进行推理而不会有任何性能下降。


该项目也使得这种大模型的使用场景更广泛,例如,有可能在装有消费级GPU的单一服务器上使用OPT-175B/BLOOM




相关文章
|
2天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
49 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
81 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
5天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
108 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
7天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
47 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
8天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
61 37
|
7天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
56 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
8天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
48 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
3天前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
42 27
|
10天前
|
人工智能 物联网
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
51 10
|
机器学习/深度学习 存储 Python
独家 | kaggle季军新手笔记:利用fast.ai对油棕人工林图像进行快速分类(附代码)
一支深度学习的新手队如何在kaggle竞赛中获得第三名?
953 0

热门文章

最新文章