暴击专家模型!Meta最新多模态大模型ImageBind已开源(2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源

究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。ImageBind还在跨模态的新兴零样本识别任务上取得了新的最先进性能,甚至优于为该模态训练的最近模型来识别概念。

未来用在哪?


从上面的演示可以看到,ImageBind具有使用多种输入查询模式和在其他模式下检索输出的能力,为创作者展示了新的可能性。近来,Meta看似全力以赴搞AI,其实全是元宇宙。比如,通过结合3D和IMU传感器,能够设计,甚至体验身临其境的虚拟世界。ImageBind还提供了一种丰富的方式来探索记忆,利用文本、音频和图像的组合检索图片、视频、音频或文本信息。想象一下,有人拍摄了一段海上日落的视频,用上ImageBind就可以一秒添加完美契合的音频来让整个画面更加的酷炫。而输入一张虎斑狮子狗的图片,ImageBind也可以一键生成有关狗的文章或该图像的深度模型。用户甚至可以基于音频对图像中的对象进行分割和识别。有了这个能力,人们能就可以通过将静态图像与音频提示相结合来创建动画。比方说,一个创作者可以将一张图片与闹钟和公鸡啼叫相结合,并使用鸡叫的音频提示来分割公鸡或闹钟的声音,然后进一步分割时钟,并将两个动画整合成一个视频序列。Meta的研究人员表示,关于多模态学习仍有很多需要探索的地方。目前,整个AI社区还没能有效地量化仅出现在较大模型中的扩展行为,并进一步理解它们的应用。Meta希望,AI开发者社区能够探索ImageBind,以及配套发表的论文,以找到评估视觉模型和引领新应用的新途径。

网友狂欢


当然了,自家实验室这么重磅的研究,LeCun也少不了宣传一波。英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。ImageBind:Meta最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和IMU信号!OpenAI Embedding是AI驱动搜索和长期记忆的基础。ImageBind是Meta的Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。通过对齐6种模态,你可以实现一些仅靠文本的GPT-4无法实现的花式功能:-跨模态检索:将其视为多媒体谷歌搜索-嵌入空间算术:无缝地组合不同的数据格式-生成:通过扩散将任何模态映射到其他任何模态顺便提一句,你可以在大约30行的python代码中使用这个多模态Embedding API。Meta跃跃欲试地开放AI,微软却说「不好意思,我们正在开放多模态感官/形式AI」。ImageBind的诞生就是为了模拟人类感知。ImageBind甚至优于之前,为某一特定模态单独训练的专家模型。有了它,智能体现在可以理解照片中的物体、声音、三维形状,以及它们如何移动。简言之,就像我们人类一样!嵌入一直以来非常有用。随着GPT迅速蹿红,相信更多的人已经从它那里获得了令人难以置信的价值。IMAGEBIND展示了嵌入的力量,甚至在许多模态上得到了极大的增强。有了ImageBind,感觉万物皆向量,还是相同的向量空间SAM发布后,许多人惊呼CV不存在了。网友直接点名,Meta能给我们留点不?不像某些人(OpenAI),Meta是开源极大推动者。ImageBind面世,贾维斯也不远了。参考资料:

https://imagebind.metademolab.com/

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://github.com/facebookresearch/ImageBind

相关文章
|
7月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
186 2
|
4天前
|
人工智能 监控 自动驾驶
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
Apollo是由Meta和斯坦福大学合作推出的大型多模态模型,专注于视频理解。该模型通过“Scaling Consistency”现象,在较小模型上的设计决策能够有效扩展至大型模型,显著提升了视频理解能力。
47 24
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
63 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
18天前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
62 11
FlagEvalMM:智源开源的多模态模型评测框架
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。
51 7
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
|
21天前
|
数据采集 文字识别 测试技术
智谱开源端侧大语言和多模态模型GLM-Edge系列!
GLM-Edge系列模型是由智谱开源,专为端侧应用设计的大语言对话模型和多模态理解模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B四种尺寸。这些模型针对手机、车机及PC等不同平台进行了优化,通过量化的技术手段,实现了高效运行。例如,在高通骁龙8 Elite平台上,1.5B对话模型和2B多模态模型能够达到每秒60 tokens以上的解码速度,而通过应用投机采样技术,这一数字可提升至100 tokens以上。
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
80 7
|
3月前
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
60 3
|
4月前
|
人工智能 自然语言处理 计算机视觉
Meta发布混合多模态模型—Chameleon
【8月更文挑战第5天】Meta AI团队近期发布了Chameleon,一种基于早期融合的混合多模态模型,能在任意顺序下理解和生成图像与文本。此34B参数模型经10万亿token训练,展现出卓越的多模态处理能力。Chameleon在视觉问答、图像字幕生成等任务中成绩亮眼,特别是在图像字幕生成上表现优异,文本生成上亦具竞争力,且有一定的图像生成能力。其性能在新混合模态生成评估中媲美甚至超越大型模型。尽管如此,Chameleon仍面临特定任务处理及计算资源需求等方面的挑战。论文已发布于arXiv。
96 11

热门文章

最新文章

下一篇
DataWorks