❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:根据文本提示将参考图像的风格应用到新图像上。
- 技术:通过跨模态 AdaIN 和 SCFG 实现风格与文本特征的整合。
- 优势:减少风格过拟合、改善文本对齐、减少伪影。
正文(附运行示例)
StyleStudio 是什么
StyleStudio 是由西湖大学 AI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的文本驱动的风格迁移模型。该模型能够将参考图像的风格与文本提示的内容融合,解决了风格过拟合、控制限制和文本错位等问题。
StyleStudio 基于三种策略来提升风格迁移的质量:跨模态 AdaIN 机制增强风格与文本特征的整合;基于风格的分类器自由引导(SCFG)支持选择性控制风格元素;教师模型在早期生成阶段稳定空间布局,减少伪影。
StyleStudio 的主要功能
- 文本驱动的风格迁移:根据文本提示,将参考图像的风格应用到新的图像内容上。
- 风格元素的选择性控制:用户可以强调或省略特定的风格组件,实现更平衡和有意的风格转换。
- 减少风格过拟合:有效降低模型过度复制参考风格图像特征的风险,提高生成图像的美学灵活性和适应性。
- 改善文本对齐准确性:在文本到图像的生成过程中,保持与文本提示的精确对齐。
- 减少不希望的伪影:基于稳定空间布局,减少如棋盘格效应等伪影,提高生成图像的质量。
StyleStudio 的技术原理
- 跨模态自适应实例归一化(AdaIN):通过 AdaIN 机制整合风格和文本特征,调整内容特征以反映风格统计特性,实现风格特征的有效融合。
- 基于风格的分类器自由引导(SCFG):生成一个缺乏目标风格的“负”图像,SCFG 支持模型专注于转移特定的风格元素,同时过滤掉不需要的风格特征。
- 教师模型:在生成的早期阶段,教师模型分享空间注意力图,确保不同风格参考图像对同一文本提示保持一致的空间布局。
- 布局稳定化:选择性替换 Stable Diffusion 模型中的 Self-Attention AttnMaps,保持核心布局特征的稳定,在风格转换过程中保持结构一致性。
- 风格和内容的解耦:基于特定的策略解耦风格和内容,让模型更好地适应风格变化,保持内容的完整性和准确性。
如何运行 StyleStudio
1. 克隆代码并准备环境
git clone https://github.com/Westlake-AGI-Lab/StyleStudio
cd StyleStudio
# 创建环境并激活
conda create -n StyleStudio python=3.10
conda activate StyleStudio
# 安装依赖
pip install -r requirements.txt
2. 运行 StyleStudio
以下是一个简单的运行示例,使用特定的文本提示和风格图像路径生成风格化图像:
python infer_StyleStudio.py \
--prompt "A red apple" \
--style_path "assets/style1.jpg" \
--adainIP \ # 启用跨模态 AdaIN
--fuSAttn \ # 启用教师模型与自注意力图
--end_fusion 20 \ # 定义教师模型停止参与的时间
--num_inference_steps 50
3. 本地 Demo
运行以下命令启动本地 Demo:
python gradio/app.py
资源
- 项目官网:https://stylestudio-official.github.io/
- GitHub 仓库:https://github.com/Westlake-AGI-Lab/StyleStudio
- arXiv 技术论文:https://arxiv.org/pdf/2412.08503
- 在线体验 Demo:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦