StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:根据文本提示将参考图像的风格应用到新图像上。
  2. 技术:通过跨模态 AdaIN 和 SCFG 实现风格与文本特征的整合。
  3. 优势:减少风格过拟合、改善文本对齐、减少伪影。

正文(附运行示例)

StyleStudio 是什么

公众号: 蚝油菜花 - StyleStudio

StyleStudio 是由西湖大学 AI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的文本驱动的风格迁移模型。该模型能够将参考图像的风格与文本提示的内容融合,解决了风格过拟合、控制限制和文本错位等问题。

StyleStudio 基于三种策略来提升风格迁移的质量:跨模态 AdaIN 机制增强风格与文本特征的整合;基于风格的分类器自由引导(SCFG)支持选择性控制风格元素;教师模型在早期生成阶段稳定空间布局,减少伪影。

StyleStudio 的主要功能

  • 文本驱动的风格迁移:根据文本提示,将参考图像的风格应用到新的图像内容上。
  • 风格元素的选择性控制:用户可以强调或省略特定的风格组件,实现更平衡和有意的风格转换。
  • 减少风格过拟合:有效降低模型过度复制参考风格图像特征的风险,提高生成图像的美学灵活性和适应性。
  • 改善文本对齐准确性:在文本到图像的生成过程中,保持与文本提示的精确对齐。
  • 减少不希望的伪影:基于稳定空间布局,减少如棋盘格效应等伪影,提高生成图像的质量。

StyleStudio 的技术原理

  • 跨模态自适应实例归一化(AdaIN):通过 AdaIN 机制整合风格和文本特征,调整内容特征以反映风格统计特性,实现风格特征的有效融合。
  • 基于风格的分类器自由引导(SCFG):生成一个缺乏目标风格的“负”图像,SCFG 支持模型专注于转移特定的风格元素,同时过滤掉不需要的风格特征。
  • 教师模型:在生成的早期阶段,教师模型分享空间注意力图,确保不同风格参考图像对同一文本提示保持一致的空间布局。
  • 布局稳定化:选择性替换 Stable Diffusion 模型中的 Self-Attention AttnMaps,保持核心布局特征的稳定,在风格转换过程中保持结构一致性。
  • 风格和内容的解耦:基于特定的策略解耦风格和内容,让模型更好地适应风格变化,保持内容的完整性和准确性。

如何运行 StyleStudio

1. 克隆代码并准备环境

git clone https://github.com/Westlake-AGI-Lab/StyleStudio
cd StyleStudio

# 创建环境并激活
conda create -n StyleStudio python=3.10
conda activate StyleStudio

# 安装依赖
pip install -r requirements.txt

2. 运行 StyleStudio

以下是一个简单的运行示例,使用特定的文本提示和风格图像路径生成风格化图像:

python infer_StyleStudio.py \
  --prompt "A red apple" \
  --style_path "assets/style1.jpg" \
  --adainIP \ # 启用跨模态 AdaIN
  --fuSAttn \ # 启用教师模型与自注意力图
  --end_fusion 20 \ # 定义教师模型停止参与的时间
  --num_inference_steps 50

3. 本地 Demo

运行以下命令启动本地 Demo:

python gradio/app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
1452 0
|
缓存 JSON 前端开发
CORS 详解,终于不用担心跨域问题了
CORS 详解,终于不用担心跨域问题了
8346 1
CORS 详解,终于不用担心跨域问题了
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
文生图大模型
DALL·E 是由 OpenAI 开发的基于深度学习的图像生成模型,能够根据文本描述生成原创图像。从 2021 年初的 DALL·E 到 2022 年的 DALL·E 2,再到最新的 DALL·E 3,其功能不断升级,包括生成、扩展、修改图像及生成变体图像。DALL·E 3 在提示优化、清晰度和多风格支持方面进行了增强,广泛应用于定制图像生成、虚拟设定、产品设计和广告营销等领域。
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
3998 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。
443 29
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
|
10月前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
378 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
10月前
|
机器学习/深度学习 人工智能
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式
Qwen2VL-Flux 是一个开源的多模态图像生成模型,结合了 Qwen2VL 的视觉语言理解和 FLUX 框架,能够基于文本提示和图像参考生成高质量的图像。该模型支持多种生成模式,包括变体生成、图像到图像转换、智能修复及 ControlNet 引导生成,具备深度估计和线条检测功能,提供灵活的注意力机制和高分辨率输出,是一站式的图像生成解决方案。
1015 4
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式

热门文章

最新文章