GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了

从前几年出尽风头的 GAN 到今年独占鳌头的 Stable Diffusion,预训练生成模型一直风头不减,相关论文、模型也是层出不穷。这就带来了一些问题:如何在众多模型中找到自己想要的那一个?如何找到对应模型的学习资料(比如代码库)?自己做了个新模型如何与更多的人分享(除了发推特)?


近日,卡内基梅隆大学助理教授朱俊彦等人开发了一个名为「Modelverse」的在线分享和搜索平台来解决这些问题。



Modelverse 是一个包含多种深度生成模型的模型共享和搜索平台,例如 GAN、扩散模型和自回归模型,题材包括动物、风景、肖像和艺术品等。你可以在这个平台上查找或者共享深度生成模型。



平台链接:https://modelverse.cs.cmu.edu/


平台提供的搜索方式是多样化的,你可以输入文字检索,也可以输入图像、简笔画或多模态信息检索。



比如,以一张飞机的简笔画作为输入,我们可以得到以下结果:



以大象的图片为输入,我们也能找到可以生成大象图像的 GAN 模型:




,时长00:42

那么,这些功能具体是怎么实现的呢?


在最新公布的论文中,作者进行了详细的介绍。



论文链接:https://arxiv.org/pdf/2210.03116.pdf

该搜索系统由预缓存阶段(a,b)和推理阶段(c)组成。给定一组模型,(a)首先为每个模型生成 50K 的样本。(b)然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据被缓存在系统中,以提高效率。(c)在推理时,系统支持不同模式(文本、图像或草图)的查询。系统将查询编码为特征向量,并评估查询特征与每个模型的统计数据之间的相似性,由此检索具有最佳相似性度量的模型。



搜索结果

模型检索的定性结果。下面展示了三种不同模态的模型检索结果,分别是图像、草图、文本。


该系统还支持多模态查询 (下图左) ,并支持使用模型作为查询来查找相似的模型 (下图右)。



图像重建与编辑。随着生成模型数量的爆发式增长,用户越来越不可能了解每一个有趣的模型,但是为自己的特定用途选择正确的模型可能是至关重要的。下图显示,选择正确的生成模型进行图像查询可以得到更好的转换结果,从而更好地进行潜在空间插值和图像编辑。



但我们可以发现,这个搜索系统还存在一些局限性。如下图(左)所示,有时侯草图查询(例如,鸟的草图)会匹配具有抽象风格的模型。CLIP 特征是否与草图的形状、样式、纹理相匹配是不明确的。如下图(右)所示,对于彼此冲突的多模态查询(大象文本 + 狗图像),系统就难以检索具有这两个概念的模型——排名靠前的模型中没有大象模型。


随着平台上共享的模型越来越多,平台的搜索体验有望逐步改善。

相关文章
|
1月前
|
编解码 自然语言处理 计算机视觉
OpenAI 生成视频模型 Sora 论文翻译
OpenAI 生成视频模型 Sora 论文翻译
17 1
|
3月前
|
自然语言处理
斯坦福新研究:RAG能帮助LLM更靠谱吗?
【6月更文挑战第8天】斯坦福大学研究表明,检索增强生成(RAG)技术可提升大型语言模型(LLM)的准确性,但在不正确或矛盾的检索信息下,LLM可能产生误导性答案。研究发现,提供准确检索信息时,LLM准确率可达94%,但错误信息可能导致LLM重复错误。LLM对信息的依赖和内部知识的冲突是关键问题,提示技术的选择也会影响其行为。研究强调使用RAG需谨慎,并指出需要进一步探索LLM在复杂情况下的表现。
65 7
|
4月前
|
存储 自然语言处理 文字识别
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
2525 0
|
机器学习/深度学习 数据采集 人工智能
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
245 0
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
|
机器学习/深度学习 人工智能 搜索推荐
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)(3)
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)
267 0
|
机器学习/深度学习 自然语言处理 搜索推荐
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)(1)
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)
319 0
|
机器学习/深度学习 自然语言处理 算法
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)(2)
DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗?一文总结推荐系统必备经典模型(一)
352 0
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
118 0
开源双语千亿预训练模型GLM-130B 项目原作解读
开源双语千亿预训练模型GLM-130B 项目原作解读
485 0
|
机器学习/深度学习 自然语言处理 计算机视觉
扩散模型爆火,这是首篇综述与Github论文分类汇总(2)
扩散模型爆火,这是首篇综述与Github论文分类汇总
302 0