8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(1)

简介: 8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

看完一篇AI论文,要是发现代码没公开,心就得凉半截,瞬间对实验结果都要开始怀疑。


最近有网友收集了八月份发表的10642篇AI论文,发现其中90.9%的论文都没有公开代码。


在公开的一千份代码中,根据其在GitHub上收获Stars数量做了一个排行榜,排名前二的论文都是语言-图像模型相关的研究。



文末还有在推特上排行前十的AI研究列表,部分只有论文,没有代码。


1. 用一个词描述一张图


Text-to-image模型通过自然语言来指导创作图像,提供了前所未有的自由度。


但目前还不清楚如何利用这种自由来生成指定的、具有独特概念的图像,或者修改图像的外观,或将它们组成新的角色和新的场景。


可以用一个简单的问题来描述:我们如何利用language-guided模型把「自己的」猫变成一幅画,或者在「自己最喜欢的」玩具的基础上想象出一个新产品?


来自特拉维夫大学和英伟达的研究人员提出了一个简单的方法,只需使用3-5张用户提供的图片,比如一个物体或一种风格,无需微调text-to-image模型,即可在通过新的word在embedding空间中学习表示用户输入。


论文链接:https://arxiv.org/abs/2208.01618

项目链接:https://textual-inversion.github.io/

代码链接:https://github.com/rinongal/textual_inversion


这些word可以作为自然语言句子中的一部分,以更直观的方式来指导个性化的创作。



比如输入一些用户图片,即可生成一个特殊的word来表示该风格或物体。



甚至还可以在自然语言句子中组合多个新words



值得注意的是,研究人员发现有证据表明,单个词的embedding足以捕捉到独特且多样的概念。


在将该方法与大量的基线模型进行比较后,可以证明它能更忠实地描绘一系列应用和任务中的概念。


2. 从语言-图像到视频


经过对比学习训练的「图像文本模型」在从整个「互联网规模」的数据中学习visual-textual联合表征方面取得了巨大成功,并在各种图像任务中表现出超强的zero-shot泛化能力。


但我们该如何将这种新的language-image预训练方法有效地扩展到视频领域?目前仍然是一个开放的问题。


来自微软研究院、中国科学院、石溪大学和罗切斯特大学的研究人员提出了一个简单而有效的方法,可以将预训练的language-image方法直接用于视频识别,而不必从头开始预训练一个新的模型。


论文链接:https://arxiv.org/abs/2208.02816

代码链接:https://github.com/microsoft/videox


具体来说,为了捕捉视频帧在时间维度上的长距离依赖性,文中提出了一个跨帧注意力(cross-frame attention)机制,显式地交换不同帧之间的信息。



这样设计得到的模块是轻量级的,可以可以无缝地插入到预训练的语言-图像模型中。


此外,研究人员还提出了 一个针对视频的prompt模式,能够利用视频的内容信息来生成有辨识度的文本提示。


经过大量的实验后,可以证明该方法是有效的,并且能够被推广到 不同的视频识别场景。


在完全监督(fully-supervised)的情况下,该方法在Kinectics-400上达到了87.1%的top-1准确率,并且FLOPs仅为Swin-L和ViViT-H的十二分之一。



在zero-shot实验中,在两个常用的协议下,该方法以+7.6%和+14.9%的最高准确率超过了目前的sota方法。


在few-shot实验中,当标签数据极其有限时,该方法比以前的最佳方法高出+32.1%和+23.1%


3. 无需噪声的扩散模型


目前业界出现的扩散(Diffusion)模型变体层出不穷,但「随机噪声」是不变的核心。


标准的扩散模型包括图像变换(image transform),添加高斯噪声,和一个反转图像退化的恢复算子。


来自马里兰大学和纽约大学的研究人员观察到,扩散模型的生成行为并不依赖于图像退化的选择,事实上,通过改变这种选择,可以构建整个生成模型系列。


论文链接:https://arxiv.org/abs/2208.09392

代码链接:https://github.com/arpitbansal297/cold-diffusion-models


即使在使用完全确定的退化(如模糊、遮蔽等)时,作为扩散模型基础的训练和测试时间更新规则也可以很容易地被泛化以创建生成模型。


这些完全确定的模型的成功使人们对社区对扩散模型的理解产生了疑问,这种理解依赖于梯度朗文动力学(gradient Langevin dynamics)或变分推理中的噪声,并为反转任意过程的泛化扩散模型铺平了道路。



在这篇论文中,作者不再将扩散模型局限于「依赖高斯噪声而建立」,而是提出了围绕模糊(blurring)、下采样(downsampling)等任意图像变换方式建立的广义扩散模型。


由于不再有原先的「高温」状态,这种全新广义扩散模型也就被称作为 Cold Diffusion。


4. 让大模型走进消费级GPU


大型语言模型目前已成为主流NLP研究的基础,但使用大模型需要大量的GPU内存进行推理。


论文链接:https://arxiv.org/abs/2208.07339

代码链接:https://github.com/timdettmers/bitsandbytes


来自华盛顿大学、Meta AI研究院、Hugging Face的研究人员为Transformer中的前馈和注意力投影层开发了一个Int8矩阵乘法的程序,使得推理所需的内存减少了一半,同时还能保持全精度的性能。


使用该方法,可以很方便地加载一个175B参数的16/32位checkpoint,转换为Int8后,也不会出现性能下降的情况。



想要做到这一点,需要通过理解和绕过Transformer语言模型中高度系统化的突发特征的特性来进行实现,这些特征主导着注意力和Transformer的预测性能。


为了应对这些特征,研究人员开发了一个由两部分组成的量化(quantization)程序:LLM.int8()。首先使用矢量量化,对矩阵乘法中的每个内积都使用单独的归一化常数,以量化大多数特征。


对于出现的异常值,文中还提出一个新的混合精度分解方案,该方案将异常值特征维度隔离到16位的矩阵乘法中,与此同时仍有超过99.9%的值是以8位乘法的。


根据经验表明,使用LLM.int8()可以在参数高达175B的LLM中进行推理而不会有任何性能下降。


该项目也使得这种大模型的使用场景更广泛,例如,有可能在装有消费级GPU的单一服务器上使用OPT-175B/BLOOM




相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1778 120
|
2月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
743 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1653 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
309 120
|
3月前
|
人工智能 Rust 并行计算
AI大模型开发语言排行
AI大模型开发涉及多种编程语言:Python为主流,用于算法研发;C++/CUDA优化性能;Go/Rust用于工程部署;Java适配企业系统;Julia等小众语言用于科研探索。
1302 127
|
3月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
312 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
685 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
426 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
3月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
255 10