FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像

简介: FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 无需微调:FreeScale不需要对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  2. 高分辨率生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  3. 多尺度信息融合:通过结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。

正文(附运行示例)

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架,旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成,不仅提高了生成内容的质量与保真度,还减少了推理时间,显著超越了现有方法。

FreeScale 的主要功能

  • 高分辨率视觉生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  • 无需微调:与传统需要微调的方法不同,FreeScale不要求对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  • 处理高频信息:FreeScale通过提取和融合不同尺度的信息,有效管理高频信息,减少生成内容中的重复模式和伪影。
  • 多尺度信息融合:基于结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。
  • 灵活控制细节级别:用户能根据需要调整不同区域的细节级别,实现更精细的视觉效果控制。

FreeScale 的技术原理

  • 定制自级联上采样:从纯高斯噪声开始,逐步去噪,用训练分辨率生成图像,基于上采样获得更高分辨率的图像。
  • 受约束的膨胀卷积:为扩大卷积的感受野并减少局部重复问题,FreeScale在特定的网络层中使用膨胀卷积。
  • 尺度融合:在去噪过程中,调整自注意力层,使其同时具有全局和局部注意力结构,基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
  • 频率成分提取与融合:基于提取所需的频率成分并进行融合,优化高分辨率生成质量,减少高频信息引发的重复模式问题。
  • 细节级别控制:调整生成细节的级别,基于缩放余弦衰减因子控制新生成细节的级别,实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

  1. Hugging Face下载预训练的SDXL检查点。
  2. 修改run_freescale.py文件,并在终端中输入以下命令:
    ```bash
    python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例,通常为1.0 ~ 2.0。对于8K图像生成,建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件,生成原始分辨率的基准图像:
```bash
python run_sdxl.py
  1. 将生成的图像放入imgen_intermediates文件夹。
  2. (可选)使用其他分割模型(如Segment Anything)生成掩码,并将其放入imgen_intermediates文件夹。
  3. 修改run_freescale_imgen.py文件,生成最终的高分辨率图像:
    ```bash
    python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例,通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例,通常为0.5 ~ 1.0。

```

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 自然语言处理 关系型数据库
极智编程:基于Qoder+PolarDB Supabase 实现全栈VibeCoding
VibeCoding是AI驱动的编程新范式,开发者通过自然语言描述需求,由AI完成全栈开发。结合Qoder与PolarDB Supabase MCP Server,可填补前后端断层,实现高效全栈应用生成,显著降低开发门槛,提升非专业者的开发效率。
|
8月前
|
存储 负载均衡 算法
我们来说一说 Java 的一致性 Hash 算法
我是小假 期待与你的下一次相遇 ~
407 1
|
关系型数据库 MySQL 数据库
【MySQL】mysql异常宕机无法启动处理过程
【MySQL】mysql异常宕机无法启动处理过程
|
缓存 监控 网络协议
Linux操作系统的内核优化与实践####
本文旨在探讨Linux操作系统内核的优化策略与实际应用案例,深入分析内核参数调优、编译选项配置及实时性能监控的方法。通过具体实例讲解如何根据不同应用场景调整内核设置,以提升系统性能和稳定性,为系统管理员和技术爱好者提供实用的优化指南。 ####
|
机器学习/深度学习 人工智能 PyTorch
使用Pytorch构建视觉语言模型(VLM)
视觉语言模型(Vision Language Model,VLM)正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节,可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。
468 2
|
安全 应用服务中间件 PHP
中间件漏洞
中间件漏洞
|
数据采集 机器学习/深度学习 算法
|
开发框架 中间件 API
ABP VNext框架基础知识介绍(2)--微服务的网关
ABP VNext框架基础知识介绍(2)--微服务的网关
|
iOS开发
IOS - iPhoneX 怎么进入 DFU 模式(刷机必备)?
IOS - iPhoneX 怎么进入 DFU 模式(刷机必备)?
2097 0

热门文章

最新文章