ELITE项目原作解读：基于扩散模型的快速定制化图像生成-阿里云开发者社区

ELITE项目原作解读：基于扩散模型的快速定制化图像生成

2023-05-25 146

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ELITE项目原作解读：基于扩散模型的快速定制化图像生成

近年来，大规模预训练的扩散模型（如 Imagen、DALLE-2、Stable Diffusion）在图像生成方面取得了巨大进展，尤其是在文本到图像生成任务中。根据给定的文本，现有的大模型能够生成多样且逼真的图像。然而这些模型依然难以满足用户对于生成结果精细控制的需求，特别是生成特定视觉概念的要求。定制化文本到图像生成方法，如 Textual Inversion、Custom Diffusion 等通过将给定的视觉概念表示成文本嵌入，可以更方便地实现对特定概念的生成和编辑。然而这些方法通常基于优化的方式来学习文本嵌入，需要较长时间（几分钟至几十分钟）学习新概念，限制了其实际应用效果。

为了实现快速的定制化文本到图像生成，我们提出一种基于模型的方法 ELITE。首先，ELITE 利用全局编码网络将视觉概念直接映射到文本嵌入，并在训练时引入多层特征策略以提升文本嵌入的可编辑性。同时，ELITE 使用局部编码网络进行细节补充，以更好地平衡定制化生成的一致性和可编辑性。实验结果表明，ELITE 可以在极短的时间内（小于 0.1 秒）学习新的视觉概念，并可以进行高效的编辑。

机器之心最新一期线上分享邀请到了哈尔滨工业大学博士生魏于翔，为大家分享他们近期工作 ELITE。

分享主题：ELITE：基于扩散模型的快速定制化图像生成

分享嘉宾：魏于翔，哈尔滨工业大学博士生，主要研究方向为图像生成，曾在 CVPR, ICCV, ECCV 等会议上发表论文数篇。

分享摘要：ELITE 是一种基于模型的快速定制化文本到图像生成方法。其首先利用全局编码网络将视觉概念直接映射到文本嵌入，并结合局部编码网络对概念细节进行补充，以更好地平衡定制化生成的一致性和可编辑性。实验证明 ELITE 能够以极高的效率（<0.1秒）得到新的视觉概念，并可以高效快捷的编辑。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/elite

2）论文链接：

https://arxiv.org/abs/2302.13848

3）代码仓库：

https://github.com/csyxwei/ELITE

ELITE项目原作解读：基于扩散模型的快速定制化图像生成

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ELITE项目原作解读：基于扩散模型的快速定制化图像生成

热门文章

最新文章

相关课程

相关电子书

相关实验场景