FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 无需微调:FreeScale不需要对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  2. 高分辨率生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  3. 多尺度信息融合:通过结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。

正文(附运行示例)

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架,旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成,不仅提高了生成内容的质量与保真度,还减少了推理时间,显著超越了现有方法。

FreeScale 的主要功能

  • 高分辨率视觉生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  • 无需微调:与传统需要微调的方法不同,FreeScale不要求对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  • 处理高频信息:FreeScale通过提取和融合不同尺度的信息,有效管理高频信息,减少生成内容中的重复模式和伪影。
  • 多尺度信息融合:基于结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。
  • 灵活控制细节级别:用户能根据需要调整不同区域的细节级别,实现更精细的视觉效果控制。

FreeScale 的技术原理

  • 定制自级联上采样:从纯高斯噪声开始,逐步去噪,用训练分辨率生成图像,基于上采样获得更高分辨率的图像。
  • 受约束的膨胀卷积:为扩大卷积的感受野并减少局部重复问题,FreeScale在特定的网络层中使用膨胀卷积。
  • 尺度融合:在去噪过程中,调整自注意力层,使其同时具有全局和局部注意力结构,基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
  • 频率成分提取与融合:基于提取所需的频率成分并进行融合,优化高分辨率生成质量,减少高频信息引发的重复模式问题。
  • 细节级别控制:调整生成细节的级别,基于缩放余弦衰减因子控制新生成细节的级别,实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

  1. Hugging Face下载预训练的SDXL检查点。
  2. 修改run_freescale.py文件,并在终端中输入以下命令:
    ```bash
    python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例,通常为1.0 ~ 2.0。对于8K图像生成,建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件,生成原始分辨率的基准图像:
```bash
python run_sdxl.py
  1. 将生成的图像放入imgen_intermediates文件夹。
  2. (可选)使用其他分割模型(如Segment Anything)生成掩码,并将其放入imgen_intermediates文件夹。
  3. 修改run_freescale_imgen.py文件,生成最终的高分辨率图像:
    ```bash
    python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例,通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例,通常为0.5 ~ 1.0。

```

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
编解码 人工智能 测试技术
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]
79 5
|
5月前
|
人工智能 自然语言处理 测试技术
将图像自动文本化,图像描述质量更高、更准确了
【7月更文挑战第11天】AI研究提升图像文本化准确性:新框架IT融合多模态大模型与视觉专家,生成详细无幻觉的图像描述。通过三个阶段—全局文本化、视觉细节提取和重描述,实现更高质量的图像转文本。研究人员建立DID-Bench、D2I-Bench和LIN-Bench基准,展示描述质量显著提升。尽管有进步,仍面临幻觉、细节缺失及大规模处理挑战。[论文链接](https://arxiv.org/pdf/2406.07502v1)**
43 1
|
7月前
|
机器学习/深度学习 人工智能 达摩院
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
392 3
|
7月前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
206 1
|
7月前
|
机器学习/深度学习 编解码 测试技术
图像超分:真实感图像超分辨率的局部判别学习方法
图像超分:真实感图像超分辨率的局部判别学习方法
99 0
|
7月前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
332 0
|
存储 机器学习/深度学习 编解码
使用训练分类网络预处理多分辨率图像
说明如何准备用于读取和预处理可能不适合内存的多分辨率全玻片图像 (WSI) 的数据存储。肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。 读取和处理WSI数据。这些对象有助于使用多个分辨率级别,并且不需要将图像加载到核心内存中。此示例演示如何使用较低分辨率的图像数据从较精细的级别有效地准备数据。可以使用处理后的数据来训练分类深度学习网络。
346 0
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
184 0
|
自然语言处理 算法 测试技术
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
129 0
|
机器学习/深度学习 编解码 数据可视化
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
197 0

热门文章

最新文章