究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。ImageBind还在跨模态的新兴零样本识别任务上取得了新的最先进性能,甚至优于为该模态训练的最近模型来识别概念。
未来用在哪?
从上面的演示可以看到,ImageBind具有使用多种输入查询模式和在其他模式下检索输出的能力,为创作者展示了新的可能性。近来,Meta看似全力以赴搞AI,其实全是元宇宙。比如,通过结合3D和IMU传感器,能够设计,甚至体验身临其境的虚拟世界。ImageBind还提供了一种丰富的方式来探索记忆,利用文本、音频和图像的组合检索图片、视频、音频或文本信息。想象一下,有人拍摄了一段海上日落的视频,用上ImageBind就可以一秒添加完美契合的音频来让整个画面更加的酷炫。而输入一张虎斑狮子狗的图片,ImageBind也可以一键生成有关狗的文章或该图像的深度模型。用户甚至可以基于音频对图像中的对象进行分割和识别。有了这个能力,人们能就可以通过将静态图像与音频提示相结合来创建动画。比方说,一个创作者可以将一张图片与闹钟和公鸡啼叫相结合,并使用鸡叫的音频提示来分割公鸡或闹钟的声音,然后进一步分割时钟,并将两个动画整合成一个视频序列。Meta的研究人员表示,关于多模态学习仍有很多需要探索的地方。目前,整个AI社区还没能有效地量化仅出现在较大模型中的扩展行为,并进一步理解它们的应用。Meta希望,AI开发者社区能够探索ImageBind,以及配套发表的论文,以找到评估视觉模型和引领新应用的新途径。
网友狂欢
当然了,自家实验室这么重磅的研究,LeCun也少不了宣传一波。英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。ImageBind:Meta最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和IMU信号!OpenAI Embedding是AI驱动搜索和长期记忆的基础。ImageBind是Meta的Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。通过对齐6种模态,你可以实现一些仅靠文本的GPT-4无法实现的花式功能:-跨模态检索:将其视为多媒体谷歌搜索-嵌入空间算术:无缝地组合不同的数据格式-生成:通过扩散将任何模态映射到其他任何模态顺便提一句,你可以在大约30行的python代码中使用这个多模态Embedding API。Meta跃跃欲试地开放AI,微软却说「不好意思,我们正在开放多模态感官/形式AI」。ImageBind的诞生就是为了模拟人类感知。ImageBind甚至优于之前,为某一特定模态单独训练的专家模型。有了它,智能体现在可以理解照片中的物体、声音、三维形状,以及它们如何移动。简言之,就像我们人类一样!嵌入一直以来非常有用。随着GPT迅速蹿红,相信更多的人已经从它那里获得了令人难以置信的价值。IMAGEBIND展示了嵌入的力量,甚至在许多模态上得到了极大的增强。有了ImageBind,感觉万物皆向量,还是相同的向量空间SAM发布后,许多人惊呼CV不存在了。网友直接点名,Meta能给我们留点不?不像某些人(OpenAI),Meta是开源极大推动者。ImageBind面世,贾维斯也不远了。参考资料:
https://imagebind.metademolab.com/
https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/