暴击专家模型!Meta最新多模态大模型ImageBind已开源(1)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源




 新智元报道  

编辑:桃子 拉燕

【新智元导读】Meta简直杀疯了!多模态「千脑智能」ImageBind来了,能够像人的感官一样,从多种维度理解世界。


前段时间,带着开源LLaMA杀疯的Meta,让谷歌都后背发凉。今天,Meta又丢下了重量级炸弹:

拥有「多种感官」的多模态AI模型ImageBind,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。

这么说吧,ImageBind就像「千脑智能」一样,能够调动6种不同的感知区域进行联动交流。再直观点,能够听声音「脑补」,给它一个企鹅的音频,直接就能出图。看来,文生图要被颠覆了......甚至,给一个鸽子图,外加一个摩托音频,能够检索出一张摩托和鸽子的图片。这还不算啥,ImageBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片&视频。正如论文所说「One Embedding Space To Bind Them All」,Meta这次可是发力要搞模型元宇宙。把不同模态数据串联在一个嵌入空间(Embedding Space),让其从多维度理解世界。

论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf未来,不仅如此,这个「千脑智能」还将引入更多模态增强对世界感知,比如如触觉、语音、嗅觉和大脑fMRI信号。Meta这一举,几乎给OpenAI来了重磅一击。最最重要的是,ImageBind项目已经在GitHub上开源了!不过Meta明确规定是不能商用的。这个汇集各种感官能力的ImageBind,究竟有多强?

,时长01:04

动手实操


Meta开放了模型演示,具体包括(如下):使用图像检索音频以图像或视频作为输入,即时生成给出音频。比如选择一张恶犬的图片,就能够检索到狗吠的音频。听着让人瑟瑟发抖......狗叫音频:00:0001:57使用音频检索图像通过一个音频片段,给出一张对应的图。听着喇叭鸣声,轨道咔哒咔哒地声音,火车来了火车音频:00:0000:19使用文本来检索图像和音频选择下面的一个文本提示,ImageBind将检索与该特定文本相关的一系列图像和音频片段。就选择个「喵喵叫」吧。还给了一张秀恩爱的猫咪...使用音频+图像来检索相关图像给一个狗叫声,外加一张阳光沙滩。ImageBind可以在几分钟内检索出相关图像。以后上传一个视频/音频,就能推荐一些素材,视频编辑岂不是人人都能玩转了?使用音频来生成一个图像在这里想要实现音频生图像,ImageBind需要和其他模型一起结合用,比如 DALL-E 2等生成模型。来个下雨哗啦啦的声音,身在其中的意境图就来了。下雨音频:00:0000:05ImageBind就先炫到这里了。接下来看看,它究竟是如何实现如此强大的能力。

类人ImageBind理解世界


ImageBind是一个像人类一样结合不同感官的新AI模型。它可以实现跨6种模态,包括图像、视频、音频、深度、热量和空间运动,进行检索。把不同的模式嵌入叠加,可以自然地构造它们的语义。比如,ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入,生成音频到图像的映射。其中,用上了Meta近来开源的一系列AI模型,比如DINOv2,SAM,Animated Drawings。这样视觉模型有了,分割模型有了,生成动画的能力也有了。而ImageBind则是对这些模型的一个补充,目的是给不同模式的学习提供一个统一的特征空间。在未来,ImageBind可以利用DINOv2的强大视觉特征来进一步提高其能力。ImageBind通过利用大型视觉语言模型,和零样本能力扩展到新的模态来规避这一挑战。只是通过使用它们与图像(视频、音频和图像、深度数据)的自然配对来学习单个联合嵌入空间。对于四个其他的模态(音频,深度,热量和IMU) ,用到了自然配对的自监督数据。由于网络上存在大量的图像和现有的文本,训练图像-文本模型得到了广泛的研究。ImageBind使用图像的绑定特性,这需要图像与各种模态共同出现,可以作为连接它们的桥梁。例如使用网络数据将文本与图像连接起来,或者使用从带有 IMU 传感器的可穿戴摄像机捕捉到的视频数据将动作与视频连接起来。Meta称,图像配对数据足以将这六种模态绑定在一起。ImageBind可以更全面地解释内容,允许不同的模式彼此「交谈」。

暴击专家模型


Meta的研究人员表示,图像对齐和自监督的学习表明,仅需少量样本的训练就可以提升Meta的模型性能。Meta的模型具有小模型所不具备的出色能力,这些性能通常只会在大模型中才会呈现。比如:音频匹配图片、判断照片中的场景深度等等。Meta的研究表明,ImageBind的缩放行为会随着图像编码器的性能提升而提升。换句话说,视觉模型越强,ImageBind对齐不同模态的能力就越强。训练这种模型所带来的收益不仅局限于计算机视觉本身。在Meta进行的研究中,研究人员使用了ImageBind的音频和深度编码器,并将其与之前在零样本检索以及音频和深度分类任务中的工作进行了比较。音频和深度编码器是一种可以将音频和深度信息转换为特征向量的技术,通常会用于多模态数据集的建模和分析。而零样本检索是指在没有任何标签信息的情况下,从数据集中检索出与查询相关的数据。这种技术在图像、文本、语音等领域中都有应用。音频和深度分类任务是指将音频和深度信息分为不同类别的任务,通常用于识别声音或分析深度图像。

相关文章
|
4月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
163 2
|
8天前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
34 7
|
1月前
|
人工智能 自然语言处理 计算机视觉
Meta发布混合多模态模型—Chameleon
【8月更文挑战第5天】Meta AI团队近期发布了Chameleon,一种基于早期融合的混合多模态模型,能在任意顺序下理解和生成图像与文本。此34B参数模型经10万亿token训练,展现出卓越的多模态处理能力。Chameleon在视觉问答、图像字幕生成等任务中成绩亮眼,特别是在图像字幕生成上表现优异,文本生成上亦具竞争力,且有一定的图像生成能力。其性能在新混合模态生成评估中媲美甚至超越大型模型。尽管如此,Chameleon仍面临特定任务处理及计算资源需求等方面的挑战。论文已发布于arXiv。
49 11
|
1月前
|
人工智能 自然语言处理 API
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
265 5
|
3月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
4月前
|
自然语言处理 算法 OLAP
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink是否加载预训练好的pytorch模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
4月前
|
人工智能 数据可视化 物联网
Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用。
|
11月前
|
人工智能
AgentLM:智谱AI对齐Agent能力微调语言模型,模型&数据集均开源
为探索提升智能体任务之间的促进及泛化效果,智谱AI&清华KEG提出了一种对齐Agent能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。