暴击专家模型!Meta最新多模态大模型ImageBind已开源(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源

究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。ImageBind还在跨模态的新兴零样本识别任务上取得了新的最先进性能,甚至优于为该模态训练的最近模型来识别概念。

未来用在哪?


从上面的演示可以看到,ImageBind具有使用多种输入查询模式和在其他模式下检索输出的能力,为创作者展示了新的可能性。近来,Meta看似全力以赴搞AI,其实全是元宇宙。比如,通过结合3D和IMU传感器,能够设计,甚至体验身临其境的虚拟世界。ImageBind还提供了一种丰富的方式来探索记忆,利用文本、音频和图像的组合检索图片、视频、音频或文本信息。想象一下,有人拍摄了一段海上日落的视频,用上ImageBind就可以一秒添加完美契合的音频来让整个画面更加的酷炫。而输入一张虎斑狮子狗的图片,ImageBind也可以一键生成有关狗的文章或该图像的深度模型。用户甚至可以基于音频对图像中的对象进行分割和识别。有了这个能力,人们能就可以通过将静态图像与音频提示相结合来创建动画。比方说,一个创作者可以将一张图片与闹钟和公鸡啼叫相结合,并使用鸡叫的音频提示来分割公鸡或闹钟的声音,然后进一步分割时钟,并将两个动画整合成一个视频序列。Meta的研究人员表示,关于多模态学习仍有很多需要探索的地方。目前,整个AI社区还没能有效地量化仅出现在较大模型中的扩展行为,并进一步理解它们的应用。Meta希望,AI开发者社区能够探索ImageBind,以及配套发表的论文,以找到评估视觉模型和引领新应用的新途径。

网友狂欢


当然了,自家实验室这么重磅的研究,LeCun也少不了宣传一波。英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。ImageBind:Meta最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和IMU信号!OpenAI Embedding是AI驱动搜索和长期记忆的基础。ImageBind是Meta的Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。通过对齐6种模态,你可以实现一些仅靠文本的GPT-4无法实现的花式功能:-跨模态检索:将其视为多媒体谷歌搜索-嵌入空间算术:无缝地组合不同的数据格式-生成:通过扩散将任何模态映射到其他任何模态顺便提一句,你可以在大约30行的python代码中使用这个多模态Embedding API。Meta跃跃欲试地开放AI,微软却说「不好意思,我们正在开放多模态感官/形式AI」。ImageBind的诞生就是为了模拟人类感知。ImageBind甚至优于之前,为某一特定模态单独训练的专家模型。有了它,智能体现在可以理解照片中的物体、声音、三维形状,以及它们如何移动。简言之,就像我们人类一样!嵌入一直以来非常有用。随着GPT迅速蹿红,相信更多的人已经从它那里获得了令人难以置信的价值。IMAGEBIND展示了嵌入的力量,甚至在许多模态上得到了极大的增强。有了ImageBind,感觉万物皆向量,还是相同的向量空间SAM发布后,许多人惊呼CV不存在了。网友直接点名,Meta能给我们留点不?不像某些人(OpenAI),Meta是开源极大推动者。ImageBind面世,贾维斯也不远了。参考资料:

https://imagebind.metademolab.com/

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://github.com/facebookresearch/ImageBind

相关文章
|
1月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
129 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】使用哪些资源来了解 LLM 的最新进展?
【5月更文挑战第9天】【大模型】使用哪些资源来了解 LLM 的最新进展?
|
17天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink是否加载预训练好的pytorch模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
16天前
|
存储 缓存 安全
LLM应用实战:当图谱问答(KBQA)集成大模型(三)
本文主要是针对KBQA方案基于LLM实现存在的问题进行优化,主要涉及到响应时间提升优化以及多轮对话效果优化,提供了具体的优化方案以及相应的prompt。
260 1
|
30天前
|
人工智能 Python
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
|
1月前
|
人工智能 数据可视化 物联网
Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用。
|
8月前
|
人工智能
AgentLM:智谱AI对齐Agent能力微调语言模型,模型&数据集均开源
为探索提升智能体任务之间的促进及泛化效果,智谱AI&清华KEG提出了一种对齐Agent能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。
|
11月前
|
人工智能 PyTorch API
【奶奶看了都会】Meta开源大模型LLama2部署使用教程,附模型对话效果
就在7月19日,MetaAI开源了LLama2大模型,Meta 首席科学家、图灵奖获得者 Yann LeCun在推特上表示Meta 此举可能将改变大模型行业的竞争格局。一夜之间,大模型格局再次发生巨变。
1614 3
【奶奶看了都会】Meta开源大模型LLama2部署使用教程,附模型对话效果
|
11月前
|
自然语言处理 数据挖掘 测试技术
Meta-Transformer 多模态学习的统一框架
Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据
121 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术
大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术
196 0