暴击专家模型!Meta最新多模态大模型ImageBind已开源(1)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源




 新智元报道  

编辑:桃子 拉燕

【新智元导读】Meta简直杀疯了!多模态「千脑智能」ImageBind来了,能够像人的感官一样,从多种维度理解世界。


前段时间,带着开源LLaMA杀疯的Meta,让谷歌都后背发凉。今天,Meta又丢下了重量级炸弹:

拥有「多种感官」的多模态AI模型ImageBind,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。

这么说吧,ImageBind就像「千脑智能」一样,能够调动6种不同的感知区域进行联动交流。再直观点,能够听声音「脑补」,给它一个企鹅的音频,直接就能出图。看来,文生图要被颠覆了......甚至,给一个鸽子图,外加一个摩托音频,能够检索出一张摩托和鸽子的图片。这还不算啥,ImageBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片&视频。正如论文所说「One Embedding Space To Bind Them All」,Meta这次可是发力要搞模型元宇宙。把不同模态数据串联在一个嵌入空间(Embedding Space),让其从多维度理解世界。

论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf未来,不仅如此,这个「千脑智能」还将引入更多模态增强对世界感知,比如如触觉、语音、嗅觉和大脑fMRI信号。Meta这一举,几乎给OpenAI来了重磅一击。最最重要的是,ImageBind项目已经在GitHub上开源了!不过Meta明确规定是不能商用的。这个汇集各种感官能力的ImageBind,究竟有多强?

,时长01:04

动手实操


Meta开放了模型演示,具体包括(如下):使用图像检索音频以图像或视频作为输入,即时生成给出音频。比如选择一张恶犬的图片,就能够检索到狗吠的音频。听着让人瑟瑟发抖......狗叫音频:00:0001:57使用音频检索图像通过一个音频片段,给出一张对应的图。听着喇叭鸣声,轨道咔哒咔哒地声音,火车来了火车音频:00:0000:19使用文本来检索图像和音频选择下面的一个文本提示,ImageBind将检索与该特定文本相关的一系列图像和音频片段。就选择个「喵喵叫」吧。还给了一张秀恩爱的猫咪...使用音频+图像来检索相关图像给一个狗叫声,外加一张阳光沙滩。ImageBind可以在几分钟内检索出相关图像。以后上传一个视频/音频,就能推荐一些素材,视频编辑岂不是人人都能玩转了?使用音频来生成一个图像在这里想要实现音频生图像,ImageBind需要和其他模型一起结合用,比如 DALL-E 2等生成模型。来个下雨哗啦啦的声音,身在其中的意境图就来了。下雨音频:00:0000:05ImageBind就先炫到这里了。接下来看看,它究竟是如何实现如此强大的能力。

类人ImageBind理解世界


ImageBind是一个像人类一样结合不同感官的新AI模型。它可以实现跨6种模态,包括图像、视频、音频、深度、热量和空间运动,进行检索。把不同的模式嵌入叠加,可以自然地构造它们的语义。比如,ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入,生成音频到图像的映射。其中,用上了Meta近来开源的一系列AI模型,比如DINOv2,SAM,Animated Drawings。这样视觉模型有了,分割模型有了,生成动画的能力也有了。而ImageBind则是对这些模型的一个补充,目的是给不同模式的学习提供一个统一的特征空间。在未来,ImageBind可以利用DINOv2的强大视觉特征来进一步提高其能力。ImageBind通过利用大型视觉语言模型,和零样本能力扩展到新的模态来规避这一挑战。只是通过使用它们与图像(视频、音频和图像、深度数据)的自然配对来学习单个联合嵌入空间。对于四个其他的模态(音频,深度,热量和IMU) ,用到了自然配对的自监督数据。由于网络上存在大量的图像和现有的文本,训练图像-文本模型得到了广泛的研究。ImageBind使用图像的绑定特性,这需要图像与各种模态共同出现,可以作为连接它们的桥梁。例如使用网络数据将文本与图像连接起来,或者使用从带有 IMU 传感器的可穿戴摄像机捕捉到的视频数据将动作与视频连接起来。Meta称,图像配对数据足以将这六种模态绑定在一起。ImageBind可以更全面地解释内容,允许不同的模式彼此「交谈」。

暴击专家模型


Meta的研究人员表示,图像对齐和自监督的学习表明,仅需少量样本的训练就可以提升Meta的模型性能。Meta的模型具有小模型所不具备的出色能力,这些性能通常只会在大模型中才会呈现。比如:音频匹配图片、判断照片中的场景深度等等。Meta的研究表明,ImageBind的缩放行为会随着图像编码器的性能提升而提升。换句话说,视觉模型越强,ImageBind对齐不同模态的能力就越强。训练这种模型所带来的收益不仅局限于计算机视觉本身。在Meta进行的研究中,研究人员使用了ImageBind的音频和深度编码器,并将其与之前在零样本检索以及音频和深度分类任务中的工作进行了比较。音频和深度编码器是一种可以将音频和深度信息转换为特征向量的技术,通常会用于多模态数据集的建模和分析。而零样本检索是指在没有任何标签信息的情况下,从数据集中检索出与查询相关的数据。这种技术在图像、文本、语音等领域中都有应用。音频和深度分类任务是指将音频和深度信息分为不同类别的任务,通常用于识别声音或分析深度图像。

目录
打赏
0
0
0
0
371
分享
相关文章
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
93 17
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
实战 | Qwen3大模型微调入门实战(完整代码)
Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了开源模型社区中最受欢迎的开源LLM。
482 23
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
2天前
#我用Qwen3做了英语老师玛丽# 、#阿里云百炼#,@通义大模型
通过Qwen3创建了名为“玛丽”的英语老师智能体,具备解决学生英语问题的多种功能。她能用英语描述天气、翻译古诗词、撰写英语作文,还帮助了解外国文化、饮食与风俗习惯。相比以往版本更易使用,体验更佳。已完成功能设计与发布流程,感兴趣者可尝试使用。
39 12
|
2天前
|
#我用Qwen3做了旅游专家# 、#阿里云百炼#、@通义大模型
本教程介绍如何在百炼控制台配置智能体应用以提升旅游专家功能。首先登录百炼控制台,依次点击“应用”、“应用管理”和“智能体应用”,然后进入“设置”填写提示词。通过集成MCP高德地图与Qwen3模型,使旅游专家的回答更具体、专业,涵盖目的地导航、当地饮食、风俗习惯及天气预报等信息,显著提高用户体验与出行便利性,同时加深对智能体配置的理解。
37 10
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
150 7
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
51 4
通义万相VACE开源!一款模型搞定多种视频编辑任务
VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等