暴击专家模型!Meta最新多模态大模型ImageBind已开源(1)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 暴击专家模型!Meta最新多模态大模型ImageBind已开源




 新智元报道  

编辑:桃子 拉燕

【新智元导读】Meta简直杀疯了!多模态「千脑智能」ImageBind来了,能够像人的感官一样,从多种维度理解世界。


前段时间,带着开源LLaMA杀疯的Meta,让谷歌都后背发凉。今天,Meta又丢下了重量级炸弹:

拥有「多种感官」的多模态AI模型ImageBind,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。

这么说吧,ImageBind就像「千脑智能」一样,能够调动6种不同的感知区域进行联动交流。再直观点,能够听声音「脑补」,给它一个企鹅的音频,直接就能出图。看来,文生图要被颠覆了......甚至,给一个鸽子图,外加一个摩托音频,能够检索出一张摩托和鸽子的图片。这还不算啥,ImageBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片&视频。正如论文所说「One Embedding Space To Bind Them All」,Meta这次可是发力要搞模型元宇宙。把不同模态数据串联在一个嵌入空间(Embedding Space),让其从多维度理解世界。

论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf未来,不仅如此,这个「千脑智能」还将引入更多模态增强对世界感知,比如如触觉、语音、嗅觉和大脑fMRI信号。Meta这一举,几乎给OpenAI来了重磅一击。最最重要的是,ImageBind项目已经在GitHub上开源了!不过Meta明确规定是不能商用的。这个汇集各种感官能力的ImageBind,究竟有多强?

,时长01:04

动手实操


Meta开放了模型演示,具体包括(如下):使用图像检索音频以图像或视频作为输入,即时生成给出音频。比如选择一张恶犬的图片,就能够检索到狗吠的音频。听着让人瑟瑟发抖......狗叫音频:00:0001:57使用音频检索图像通过一个音频片段,给出一张对应的图。听着喇叭鸣声,轨道咔哒咔哒地声音,火车来了火车音频:00:0000:19使用文本来检索图像和音频选择下面的一个文本提示,ImageBind将检索与该特定文本相关的一系列图像和音频片段。就选择个「喵喵叫」吧。还给了一张秀恩爱的猫咪...使用音频+图像来检索相关图像给一个狗叫声,外加一张阳光沙滩。ImageBind可以在几分钟内检索出相关图像。以后上传一个视频/音频,就能推荐一些素材,视频编辑岂不是人人都能玩转了?使用音频来生成一个图像在这里想要实现音频生图像,ImageBind需要和其他模型一起结合用,比如 DALL-E 2等生成模型。来个下雨哗啦啦的声音,身在其中的意境图就来了。下雨音频:00:0000:05ImageBind就先炫到这里了。接下来看看,它究竟是如何实现如此强大的能力。

类人ImageBind理解世界


ImageBind是一个像人类一样结合不同感官的新AI模型。它可以实现跨6种模态,包括图像、视频、音频、深度、热量和空间运动,进行检索。把不同的模式嵌入叠加,可以自然地构造它们的语义。比如,ImageBind可以与DALL-E 2解码器和CLIP文本一起嵌入,生成音频到图像的映射。其中,用上了Meta近来开源的一系列AI模型,比如DINOv2,SAM,Animated Drawings。这样视觉模型有了,分割模型有了,生成动画的能力也有了。而ImageBind则是对这些模型的一个补充,目的是给不同模式的学习提供一个统一的特征空间。在未来,ImageBind可以利用DINOv2的强大视觉特征来进一步提高其能力。ImageBind通过利用大型视觉语言模型,和零样本能力扩展到新的模态来规避这一挑战。只是通过使用它们与图像(视频、音频和图像、深度数据)的自然配对来学习单个联合嵌入空间。对于四个其他的模态(音频,深度,热量和IMU) ,用到了自然配对的自监督数据。由于网络上存在大量的图像和现有的文本,训练图像-文本模型得到了广泛的研究。ImageBind使用图像的绑定特性,这需要图像与各种模态共同出现,可以作为连接它们的桥梁。例如使用网络数据将文本与图像连接起来,或者使用从带有 IMU 传感器的可穿戴摄像机捕捉到的视频数据将动作与视频连接起来。Meta称,图像配对数据足以将这六种模态绑定在一起。ImageBind可以更全面地解释内容,允许不同的模式彼此「交谈」。

暴击专家模型


Meta的研究人员表示,图像对齐和自监督的学习表明,仅需少量样本的训练就可以提升Meta的模型性能。Meta的模型具有小模型所不具备的出色能力,这些性能通常只会在大模型中才会呈现。比如:音频匹配图片、判断照片中的场景深度等等。Meta的研究表明,ImageBind的缩放行为会随着图像编码器的性能提升而提升。换句话说,视觉模型越强,ImageBind对齐不同模态的能力就越强。训练这种模型所带来的收益不仅局限于计算机视觉本身。在Meta进行的研究中,研究人员使用了ImageBind的音频和深度编码器,并将其与之前在零样本检索以及音频和深度分类任务中的工作进行了比较。音频和深度编码器是一种可以将音频和深度信息转换为特征向量的技术,通常会用于多模态数据集的建模和分析。而零样本检索是指在没有任何标签信息的情况下,从数据集中检索出与查询相关的数据。这种技术在图像、文本、语音等领域中都有应用。音频和深度分类任务是指将音频和深度信息分为不同类别的任务,通常用于识别声音或分析深度图像。

相关文章
|
3天前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
7天前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
83 1
|
10天前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
343 3
|
8天前
|
机器学习/深度学习 人工智能 算法
通义WebSailor开源,检索性能登顶开源榜单!
通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。
227 0
通义WebSailor开源,检索性能登顶开源榜单!
|
14天前
|
人工智能 自然语言处理 物联网
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型
近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
80 2
|
26天前
|
缓存 自然语言处理 监控
基于通义大模型的智能客服系统构建实战:从模型微调到API部署
本文详细解析了基于通义大模型的智能客服系统构建全流程,涵盖数据准备、模型微调、性能优化及API部署等关键环节。通过实战案例与代码演示,展示了如何针对客服场景优化训练数据、高效微调大模型、解决部署中的延迟与并发问题,以及构建完整的API服务与监控体系。文章还探讨了性能优化进阶技术,如模型量化压缩和缓存策略,并提供了安全与合规实践建议。最终总结显示,微调后模型意图识别准确率提升14.3%,QPS从12.3提升至86.7,延迟降低74%。
263 14
|
2天前
|
JSON 算法 安全
1688图片搜索逆向工程与多模态搜索融合实践——基于CLIP模型的特征向
本文介绍了通过逆向工程分析实现图片搜索的技术方案,包括请求特征捕获、签名算法破解及多模态搜索的实现。利用CLIP模型提取图像特征,并结合Faiss优化相似度计算,提升搜索效率。最后提供完整调用示例,模拟实现非官方API的图片搜索功能。
|
24天前
|
自然语言处理 Rust Java
通义灵码编程智能体深度评测(Qwen3模型+终端操作+MCP工具调用实战)
通义灵码作为阿里云推出的智能编程解决方案,凭借Qwen3模型与MCP平台的协同,在代码生成、终端操作与工具链调用方面展现强大能力。本文从真实开发场景出发,评测其在多语言代码理解、自动化工作流及复杂工程任务中的表现,结合性能与成本数据,揭示其在提升开发效率与系统集成方面的工程价值。
|
25天前
|
数据采集 存储 人工智能
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答

热门文章

最新文章