FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像

简介: FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 无需微调:FreeScale不需要对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  2. 高分辨率生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  3. 多尺度信息融合:通过结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。

正文(附运行示例)

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架,旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成,不仅提高了生成内容的质量与保真度,还减少了推理时间,显著超越了现有方法。

FreeScale 的主要功能

  • 高分辨率视觉生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  • 无需微调:与传统需要微调的方法不同,FreeScale不要求对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  • 处理高频信息:FreeScale通过提取和融合不同尺度的信息,有效管理高频信息,减少生成内容中的重复模式和伪影。
  • 多尺度信息融合:基于结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。
  • 灵活控制细节级别:用户能根据需要调整不同区域的细节级别,实现更精细的视觉效果控制。

FreeScale 的技术原理

  • 定制自级联上采样:从纯高斯噪声开始,逐步去噪,用训练分辨率生成图像,基于上采样获得更高分辨率的图像。
  • 受约束的膨胀卷积:为扩大卷积的感受野并减少局部重复问题,FreeScale在特定的网络层中使用膨胀卷积。
  • 尺度融合:在去噪过程中,调整自注意力层,使其同时具有全局和局部注意力结构,基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
  • 频率成分提取与融合:基于提取所需的频率成分并进行融合,优化高分辨率生成质量,减少高频信息引发的重复模式问题。
  • 细节级别控制:调整生成细节的级别,基于缩放余弦衰减因子控制新生成细节的级别,实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

  1. Hugging Face下载预训练的SDXL检查点。
  2. 修改run_freescale.py文件,并在终端中输入以下命令:
    ```bash
    python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例,通常为1.0 ~ 2.0。对于8K图像生成,建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件,生成原始分辨率的基准图像:
```bash
python run_sdxl.py
  1. 将生成的图像放入imgen_intermediates文件夹。
  2. (可选)使用其他分割模型(如Segment Anything)生成掩码,并将其放入imgen_intermediates文件夹。
  3. 修改run_freescale_imgen.py文件,生成最终的高分辨率图像:
    ```bash
    python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例,通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例,通常为0.5 ~ 1.0。

```

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 异构计算
DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性
DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。
358 14
DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性
|
7月前
|
存储 负载均衡 算法
我们来说一说 Java 的一致性 Hash 算法
我是小假 期待与你的下一次相遇 ~
249 1
|
机器学习/深度学习 安全 物联网
智能时代下的数据安全:挑战与对策
本文深入探讨了在快速发展的信息技术背景下,数据安全面临的新挑战及应对策略。文章首先分析了当前数据泄露和滥用的风险,随后提出了一系列针对性的技术和管理措施,旨在增强个人和企业的数据防护能力。通过案例分析,本文揭示了数据保护的最佳实践,并对未来数据安全技术的发展方向进行了展望。
|
关系型数据库 MySQL 数据库
【MySQL】mysql异常宕机无法启动处理过程
【MySQL】mysql异常宕机无法启动处理过程
|
12月前
|
机器学习/深度学习 编解码 Java
RT-DETR改进策略【卷积层】| GnConv:一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作
RT-DETR改进策略【卷积层】| GnConv:一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作
482 13
RT-DETR改进策略【卷积层】| GnConv:一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作
|
12月前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器 结合频域计算和卷积操作 降低噪声影响
RT-DETR改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器 结合频域计算和卷积操作 降低噪声影响
456 2
|
安全 应用服务中间件 PHP
中间件漏洞
中间件漏洞
|
数据采集 机器学习/深度学习 算法

热门文章

最新文章