FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 无需微调:FreeScale不需要对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  2. 高分辨率生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  3. 多尺度信息融合:通过结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。

正文(附运行示例)

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架,旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成,不仅提高了生成内容的质量与保真度,还减少了推理时间,显著超越了现有方法。

FreeScale 的主要功能

  • 高分辨率视觉生成:FreeScale能生成高达8K分辨率的高质量图像和视频,扩展了视觉扩散模型在高分辨率生成方面的能力。
  • 无需微调:与传统需要微调的方法不同,FreeScale不要求对预训练模型进行额外的调整或训练,即可实现高分辨率输出。
  • 处理高频信息:FreeScale通过提取和融合不同尺度的信息,有效管理高频信息,减少生成内容中的重复模式和伪影。
  • 多尺度信息融合:基于结合不同感受野尺度的信息,FreeScale优化了局部和全局细节的生成,提升了视觉内容的整体质量。
  • 灵活控制细节级别:用户能根据需要调整不同区域的细节级别,实现更精细的视觉效果控制。

FreeScale 的技术原理

  • 定制自级联上采样:从纯高斯噪声开始,逐步去噪,用训练分辨率生成图像,基于上采样获得更高分辨率的图像。
  • 受约束的膨胀卷积:为扩大卷积的感受野并减少局部重复问题,FreeScale在特定的网络层中使用膨胀卷积。
  • 尺度融合:在去噪过程中,调整自注意力层,使其同时具有全局和局部注意力结构,基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
  • 频率成分提取与融合:基于提取所需的频率成分并进行融合,优化高分辨率生成质量,减少高频信息引发的重复模式问题。
  • 细节级别控制:调整生成细节的级别,基于缩放余弦衰减因子控制新生成细节的级别,实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

  1. Hugging Face下载预训练的SDXL检查点。
  2. 修改run_freescale.py文件,并在终端中输入以下命令:
    ```bash
    python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例,通常为1.0 ~ 2.0。对于8K图像生成,建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件,生成原始分辨率的基准图像:
```bash
python run_sdxl.py
  1. 将生成的图像放入imgen_intermediates文件夹。
  2. (可选)使用其他分割模型(如Segment Anything)生成掩码,并将其放入imgen_intermediates文件夹。
  3. 修改run_freescale_imgen.py文件,生成最终的高分辨率图像:
    ```bash
    python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例,通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例,通常为0.5 ~ 1.0。

```

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能
SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!
当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个
348 0
|
10月前
|
机器学习/深度学习 数据采集 人工智能
《C 语言与统计假设检验:洞察人工智能模型性能差异》
在人工智能领域,模型性能评估是关键环节。C 语言凭借高效性和强大计算能力,在统计假设检验中发挥重要作用,帮助判断不同模型或参数设置下的性能差异是否显著。通过 t 检验等方法,C 语言能科学地验证模型性能的可靠性,支持模型优化、架构比较及应对数据变化,推动人工智能技术的发展。
223 62
|
机器学习/深度学习 安全 物联网
智能时代下的数据安全:挑战与对策
本文深入探讨了在快速发展的信息技术背景下,数据安全面临的新挑战及应对策略。文章首先分析了当前数据泄露和滥用的风险,随后提出了一系列针对性的技术和管理措施,旨在增强个人和企业的数据防护能力。通过案例分析,本文揭示了数据保护的最佳实践,并对未来数据安全技术的发展方向进行了展望。
|
10月前
|
机器学习/深度学习 人工智能 文字识别
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
727 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
|
3月前
|
存储 负载均衡 算法
我们来说一说 Java 的一致性 Hash 算法
我是小假 期待与你的下一次相遇 ~
129 1
|
10月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7025 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
11月前
|
JavaScript 计算机视觉
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。
3978 4
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
|
开发者 人工智能 消息中间件
|
11月前
|
人工智能 并行计算 PyTorch
ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法
南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散(SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像,显著减少伪影,提升视觉质量。ViewExtrapolator具有广泛的应用前景,尤其在虚拟现实、3D内容创建、电影制作等领域。
170 1
ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法
|
安全 应用服务中间件 PHP
中间件漏洞
中间件漏洞

热门文章

最新文章