暴击专家模型!Meta最新多模态大模型ImageBind已开源(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源

究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。ImageBind还在跨模态的新兴零样本识别任务上取得了新的最先进性能,甚至优于为该模态训练的最近模型来识别概念。

未来用在哪?


从上面的演示可以看到,ImageBind具有使用多种输入查询模式和在其他模式下检索输出的能力,为创作者展示了新的可能性。近来,Meta看似全力以赴搞AI,其实全是元宇宙。比如,通过结合3D和IMU传感器,能够设计,甚至体验身临其境的虚拟世界。ImageBind还提供了一种丰富的方式来探索记忆,利用文本、音频和图像的组合检索图片、视频、音频或文本信息。想象一下,有人拍摄了一段海上日落的视频,用上ImageBind就可以一秒添加完美契合的音频来让整个画面更加的酷炫。而输入一张虎斑狮子狗的图片,ImageBind也可以一键生成有关狗的文章或该图像的深度模型。用户甚至可以基于音频对图像中的对象进行分割和识别。有了这个能力,人们能就可以通过将静态图像与音频提示相结合来创建动画。比方说,一个创作者可以将一张图片与闹钟和公鸡啼叫相结合,并使用鸡叫的音频提示来分割公鸡或闹钟的声音,然后进一步分割时钟,并将两个动画整合成一个视频序列。Meta的研究人员表示,关于多模态学习仍有很多需要探索的地方。目前,整个AI社区还没能有效地量化仅出现在较大模型中的扩展行为,并进一步理解它们的应用。Meta希望,AI开发者社区能够探索ImageBind,以及配套发表的论文,以找到评估视觉模型和引领新应用的新途径。

网友狂欢


当然了,自家实验室这么重磅的研究,LeCun也少不了宣传一波。英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。ImageBind:Meta最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和IMU信号!OpenAI Embedding是AI驱动搜索和长期记忆的基础。ImageBind是Meta的Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。通过对齐6种模态,你可以实现一些仅靠文本的GPT-4无法实现的花式功能:-跨模态检索:将其视为多媒体谷歌搜索-嵌入空间算术:无缝地组合不同的数据格式-生成:通过扩散将任何模态映射到其他任何模态顺便提一句,你可以在大约30行的python代码中使用这个多模态Embedding API。Meta跃跃欲试地开放AI,微软却说「不好意思,我们正在开放多模态感官/形式AI」。ImageBind的诞生就是为了模拟人类感知。ImageBind甚至优于之前,为某一特定模态单独训练的专家模型。有了它,智能体现在可以理解照片中的物体、声音、三维形状,以及它们如何移动。简言之,就像我们人类一样!嵌入一直以来非常有用。随着GPT迅速蹿红,相信更多的人已经从它那里获得了令人难以置信的价值。IMAGEBIND展示了嵌入的力量,甚至在许多模态上得到了极大的增强。有了ImageBind,感觉万物皆向量,还是相同的向量空间SAM发布后,许多人惊呼CV不存在了。网友直接点名,Meta能给我们留点不?不像某些人(OpenAI),Meta是开源极大推动者。ImageBind面世,贾维斯也不远了。参考资料:

https://imagebind.metademolab.com/

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://github.com/facebookresearch/ImageBind

相关文章
|
1月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
175 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
1天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
57 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
2月前
|
人工智能 监控 自动驾驶
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
Apollo是由Meta和斯坦福大学合作推出的大型多模态模型,专注于视频理解。该模型通过“Scaling Consistency”现象,在较小模型上的设计决策能够有效扩展至大型模型,显著提升了视频理解能力。
88 24
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
|
2月前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
93 11
FlagEvalMM:智源开源的多模态模型评测框架
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
5月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
106 7
|
6月前
|
人工智能 自然语言处理 计算机视觉
Meta发布混合多模态模型—Chameleon
【8月更文挑战第5天】Meta AI团队近期发布了Chameleon,一种基于早期融合的混合多模态模型,能在任意顺序下理解和生成图像与文本。此34B参数模型经10万亿token训练,展现出卓越的多模态处理能力。Chameleon在视觉问答、图像字幕生成等任务中成绩亮眼,特别是在图像字幕生成上表现优异,文本生成上亦具竞争力,且有一定的图像生成能力。其性能在新混合模态生成评估中媲美甚至超越大型模型。尽管如此,Chameleon仍面临特定任务处理及计算资源需求等方面的挑战。论文已发布于arXiv。
126 11
|
8月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
9月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
125 1
|
9月前
|
机器学习/深度学习 人工智能 物联网
快速玩转 Mixtral 8x7B MOE大模型,阿里云机器学习 PAI 推出最佳实践
本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。以下我们将分别展示具体使用步骤。

热门文章

最新文章