击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

简介: 击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。


但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。


论文地址:https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在 https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

 





更多效果展示:



方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:


Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:


实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。


此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:


一些小技巧
可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:


同时建议大家把步数拉到 100,图片质量会更佳。

相关文章
|
编解码 人工智能 物联网
少年侠客【InsCode Stable Diffusion美图活动一期】
lnscode提供了学习和使用Stable Diffusion的环境,已经安装了相关软件和组件库,可直接启动Stable Diffusion WebUI进行创作
135 1
|
6月前
|
编解码 人工智能 自然语言处理
Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型
【2月更文挑战第16天】Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型
330 9
Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Stable Diffusion 3深夜横空出世!模型与Sora同架构
【2月更文挑战第4天】Stable Diffusion 3深夜横空出世!模型与Sora同架构
101 4
Stable Diffusion 3深夜横空出世!模型与Sora同架构
|
11月前
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身
|
6月前
|
人工智能 IDE 开发工具
生成古风少女图片【InsCode Stable Diffusion美图活动一期】
生成古风少女图片【InsCode Stable Diffusion美图活动一期】
113 0
|
人工智能 IDE 物联网
【古风女孩-InsCode Stable Diffusion 美图活动一期】
【古风女孩-InsCode Stable Diffusion 美图活动一期】
117 1
|
人工智能 IDE 开发工具
二次元美少女【InsCode Stable Diffusion 美图活动一期】
InsCode是一个集成了在线IDE、在线AI编程、在线算力租赁、在线项目部署以及在线SD 模型使用的综合代码开发平台。不论你是初级软件工程师,还是AI大模型爱好者,InsCode都能帮助你快速编写代码,运行项目。甚至在这里你还可以一键购买算力,训练大模型,开发自己的AI应用程序。
273 0
二次元美少女【InsCode Stable Diffusion 美图活动一期】
|
人工智能 IDE 开发工具
玩耍的猫咪【 InsCode Stable Diffusion 美图活动一期】
玩耍的猫咪【 InsCode Stable Diffusion 美图活动一期】
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
129 0
|
机器学习/深度学习 人工智能 自然语言处理
加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样
加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样
158 0