StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:根据文本提示将参考图像的风格应用到新图像上。
  2. 技术:通过跨模态 AdaIN 和 SCFG 实现风格与文本特征的整合。
  3. 优势:减少风格过拟合、改善文本对齐、减少伪影。

正文(附运行示例)

StyleStudio 是什么

公众号: 蚝油菜花 - StyleStudio

StyleStudio 是由西湖大学 AI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的文本驱动的风格迁移模型。该模型能够将参考图像的风格与文本提示的内容融合,解决了风格过拟合、控制限制和文本错位等问题。

StyleStudio 基于三种策略来提升风格迁移的质量:跨模态 AdaIN 机制增强风格与文本特征的整合;基于风格的分类器自由引导(SCFG)支持选择性控制风格元素;教师模型在早期生成阶段稳定空间布局,减少伪影。

StyleStudio 的主要功能

  • 文本驱动的风格迁移:根据文本提示,将参考图像的风格应用到新的图像内容上。
  • 风格元素的选择性控制:用户可以强调或省略特定的风格组件,实现更平衡和有意的风格转换。
  • 减少风格过拟合:有效降低模型过度复制参考风格图像特征的风险,提高生成图像的美学灵活性和适应性。
  • 改善文本对齐准确性:在文本到图像的生成过程中,保持与文本提示的精确对齐。
  • 减少不希望的伪影:基于稳定空间布局,减少如棋盘格效应等伪影,提高生成图像的质量。

StyleStudio 的技术原理

  • 跨模态自适应实例归一化(AdaIN):通过 AdaIN 机制整合风格和文本特征,调整内容特征以反映风格统计特性,实现风格特征的有效融合。
  • 基于风格的分类器自由引导(SCFG):生成一个缺乏目标风格的“负”图像,SCFG 支持模型专注于转移特定的风格元素,同时过滤掉不需要的风格特征。
  • 教师模型:在生成的早期阶段,教师模型分享空间注意力图,确保不同风格参考图像对同一文本提示保持一致的空间布局。
  • 布局稳定化:选择性替换 Stable Diffusion 模型中的 Self-Attention AttnMaps,保持核心布局特征的稳定,在风格转换过程中保持结构一致性。
  • 风格和内容的解耦:基于特定的策略解耦风格和内容,让模型更好地适应风格变化,保持内容的完整性和准确性。

如何运行 StyleStudio

1. 克隆代码并准备环境

git clone https://github.com/Westlake-AGI-Lab/StyleStudio
cd StyleStudio

# 创建环境并激活
conda create -n StyleStudio python=3.10
conda activate StyleStudio

# 安装依赖
pip install -r requirements.txt

2. 运行 StyleStudio

以下是一个简单的运行示例,使用特定的文本提示和风格图像路径生成风格化图像:

python infer_StyleStudio.py \
  --prompt "A red apple" \
  --style_path "assets/style1.jpg" \
  --adainIP \ # 启用跨模态 AdaIN
  --fuSAttn \ # 启用教师模型与自注意力图
  --end_fusion 20 \ # 定义教师模型停止参与的时间
  --num_inference_steps 50

3. 本地 Demo

运行以下命令启动本地 Demo:

python gradio/app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
图形学 计算机视觉
CVPR 2024:仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景
【4月更文挑战第22天】CustomNeRF是CVPR 2024会议上的一项创新框架,它利用文本描述或参考图像实现3D场景的精准编辑。通过局部-全局迭代编辑(LGIE)训练和类别先验正则化,该框架能精确编辑前景区域同时保持背景一致性。尽管依赖预训练模型且局限于文本和图像输入,CustomNeRF在实验中展现了高效编辑能力,为3D场景编辑开辟新路径。[链接](https://arxiv.org/abs/2312.01663)
90 2
|
7月前
|
机器学习/深度学习 算法 计算机视觉
利用深度学习技术实现自动图像风格转换
本文将介绍如何利用深度学习技术中的神经网络结构,例如卷积神经网络和生成对抗网络,来实现自动图像风格转换。通过对图像特征的提取和风格迁移算法的应用,我们可以实现将一幅图像的风格转换为另一幅图像的艺术效果,为图像处理领域带来全新的可能性。
|
人工智能 前端开发 Serverless
【图生图】一键部署3D卡通风格模型
本实验将3D卡通风格图像开源模型部署在阿里云函数计算上,让您可以把人物图像实时处理成3D卡通版图像,快来为自己生成可爱的3D卡通风格头像吧!本实验答疑钉钉群:29290019867。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
37 14
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
25天前
|
人工智能 自然语言处理 网络性能优化
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
42 2
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
|
7月前
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
3月前
|
JSON Serverless 数据格式
函数计算生成冰冻风格的AIGC图像
【9月更文挑战第05天】
58 3
|
4月前
|
缓存 运维 物联网
函数计算产品使用问题之文生图生成的是卡通类型的,如何修改
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
机器学习/深度学习 人工智能 算法
基于AI的图像风格转换系统:技术探索与实现
【6月更文挑战第7天】本文探讨了基于AI的图像风格转换系统的原理与实现,采用神经风格迁移技术,利用CNN分离并结合内容与风格。实现过程包括数据准备、构建模型(如VGG19和生成器网络)、定义内容及风格损失函数、训练模型、评估与调优,最终部署应用。尽管面临训练数据需求、计算复杂度和特定场景适应性的挑战,未来的研究将聚焦于技术提升、减少数据依赖及解决伦理隐私问题,以实现更高效智能的风格转换系统。
图像风格迁移
图像风格迁移
122 0

热门文章

最新文章