暴击专家模型!Meta最新多模态大模型ImageBind已开源(2)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源

究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。ImageBind还在跨模态的新兴零样本识别任务上取得了新的最先进性能,甚至优于为该模态训练的最近模型来识别概念。

未来用在哪?


从上面的演示可以看到,ImageBind具有使用多种输入查询模式和在其他模式下检索输出的能力,为创作者展示了新的可能性。近来,Meta看似全力以赴搞AI,其实全是元宇宙。比如,通过结合3D和IMU传感器,能够设计,甚至体验身临其境的虚拟世界。ImageBind还提供了一种丰富的方式来探索记忆,利用文本、音频和图像的组合检索图片、视频、音频或文本信息。想象一下,有人拍摄了一段海上日落的视频,用上ImageBind就可以一秒添加完美契合的音频来让整个画面更加的酷炫。而输入一张虎斑狮子狗的图片,ImageBind也可以一键生成有关狗的文章或该图像的深度模型。用户甚至可以基于音频对图像中的对象进行分割和识别。有了这个能力,人们能就可以通过将静态图像与音频提示相结合来创建动画。比方说,一个创作者可以将一张图片与闹钟和公鸡啼叫相结合,并使用鸡叫的音频提示来分割公鸡或闹钟的声音,然后进一步分割时钟,并将两个动画整合成一个视频序列。Meta的研究人员表示,关于多模态学习仍有很多需要探索的地方。目前,整个AI社区还没能有效地量化仅出现在较大模型中的扩展行为,并进一步理解它们的应用。Meta希望,AI开发者社区能够探索ImageBind,以及配套发表的论文,以找到评估视觉模型和引领新应用的新途径。

网友狂欢


当然了,自家实验室这么重磅的研究,LeCun也少不了宣传一波。英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。ImageBind:Meta最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和IMU信号!OpenAI Embedding是AI驱动搜索和长期记忆的基础。ImageBind是Meta的Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。通过对齐6种模态,你可以实现一些仅靠文本的GPT-4无法实现的花式功能:-跨模态检索:将其视为多媒体谷歌搜索-嵌入空间算术:无缝地组合不同的数据格式-生成:通过扩散将任何模态映射到其他任何模态顺便提一句,你可以在大约30行的python代码中使用这个多模态Embedding API。Meta跃跃欲试地开放AI,微软却说「不好意思,我们正在开放多模态感官/形式AI」。ImageBind的诞生就是为了模拟人类感知。ImageBind甚至优于之前,为某一特定模态单独训练的专家模型。有了它,智能体现在可以理解照片中的物体、声音、三维形状,以及它们如何移动。简言之,就像我们人类一样!嵌入一直以来非常有用。随着GPT迅速蹿红,相信更多的人已经从它那里获得了令人难以置信的价值。IMAGEBIND展示了嵌入的力量,甚至在许多模态上得到了极大的增强。有了ImageBind,感觉万物皆向量,还是相同的向量空间SAM发布后,许多人惊呼CV不存在了。网友直接点名,Meta能给我们留点不?不像某些人(OpenAI),Meta是开源极大推动者。ImageBind面世,贾维斯也不远了。参考资料:

https://imagebind.metademolab.com/

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://github.com/facebookresearch/ImageBind

相关文章
|
6月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
180 2
|
1月前
|
人工智能 算法 测试技术
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
71 7
|
2月前
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
51 3
|
3月前
|
人工智能 自然语言处理 计算机视觉
Meta发布混合多模态模型—Chameleon
【8月更文挑战第5天】Meta AI团队近期发布了Chameleon,一种基于早期融合的混合多模态模型,能在任意顺序下理解和生成图像与文本。此34B参数模型经10万亿token训练,展现出卓越的多模态处理能力。Chameleon在视觉问答、图像字幕生成等任务中成绩亮眼,特别是在图像字幕生成上表现优异,文本生成上亦具竞争力,且有一定的图像生成能力。其性能在新混合模态生成评估中媲美甚至超越大型模型。尽管如此,Chameleon仍面临特定任务处理及计算资源需求等方面的挑战。论文已发布于arXiv。
81 11
|
5月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
人工智能
AgentLM:智谱AI对齐Agent能力微调语言模型,模型&数据集均开源
为探索提升智能体任务之间的促进及泛化效果,智谱AI&清华KEG提出了一种对齐Agent能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。
|
自然语言处理 数据挖掘 测试技术
Meta-Transformer 多模态学习的统一框架
Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据
178 0
|
人工智能
魔搭中文开源模型社区:模型即服务-通用多模态AI构建(中)
魔搭中文开源模型社区:模型即服务-通用多模态AI构建
695 2

热门文章

最新文章

下一篇
无影云桌面