文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉文章正文

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

2024-12-16 373

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FreeScale是一个无需微调的推理框架，旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，首次实现了8K分辨率图像的生成，显著提高了生成内容的质量和保真度，同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

无需微调：FreeScale不需要对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
高分辨率生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
多尺度信息融合：通过结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。

正文（附运行示例）

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架，旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成，不仅提高了生成内容的质量与保真度，还减少了推理时间，显著超越了现有方法。

FreeScale 的主要功能

高分辨率视觉生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
无需微调：与传统需要微调的方法不同，FreeScale不要求对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
处理高频信息：FreeScale通过提取和融合不同尺度的信息，有效管理高频信息，减少生成内容中的重复模式和伪影。
多尺度信息融合：基于结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。
灵活控制细节级别：用户能根据需要调整不同区域的细节级别，实现更精细的视觉效果控制。

FreeScale 的技术原理

定制自级联上采样：从纯高斯噪声开始，逐步去噪，用训练分辨率生成图像，基于上采样获得更高分辨率的图像。
受约束的膨胀卷积：为扩大卷积的感受野并减少局部重复问题，FreeScale在特定的网络层中使用膨胀卷积。
尺度融合：在去噪过程中，调整自注意力层，使其同时具有全局和局部注意力结构，基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
频率成分提取与融合：基于提取所需的频率成分并进行融合，优化高分辨率生成质量，减少高频信息引发的重复模式问题。
细节级别控制：调整生成细节的级别，基于缩放余弦衰减因子控制新生成细节的级别，实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

从Hugging Face下载预训练的SDXL检查点。
修改run_freescale.py文件，并在终端中输入以下命令：
```bash
python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例，通常为1.0 ~ 2.0。对于8K图像生成，建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件，生成原始分辨率的基准图像：
```bash
python run_sdxl.py

将生成的图像放入imgen_intermediates文件夹。
（可选）使用其他分割模型（如Segment Anything）生成掩码，并将其放入imgen_intermediates文件夹。
修改run_freescale_imgen.py文件，生成最终的高分辨率图像：
```bash
python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例，通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例，通常为0.5 ~ 1.0。

```

资源

项目官网：http://haonanqiu.com/projects/FreeScale
GitHub 仓库：https://github.com/ali-vilab/FreeScale
arXiv 技术论文：https://arxiv.org/pdf/2412.09626

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

视觉智能开放平台

编解码

人工智能

蚝油菜花

目录

相关文章

蚝油菜花

|

人工智能异构计算

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，显著提升了人物图像动画的质量和一致性。

蚝油菜花

358 14 14

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

程序员小假

|

7月前

|

存储负载均衡算法

我们来说一说 Java 的一致性 Hash 算法

我是小假期待与你的下一次相遇 ~

程序员小假

249 1 1

游客762btuqu5wybw666

|

机器学习/深度学习安全物联网

智能时代下的数据安全：挑战与对策

本文深入探讨了在快速发展的信息技术背景下，数据安全面临的新挑战及应对策略。文章首先分析了当前数据泄露和滥用的风险，随后提出了一系列针对性的技术和管理措施，旨在增强个人和企业的数据防护能力。通过案例分析，本文揭示了数据保护的最佳实践，并对未来数据安全技术的发展方向进行了展望。

游客762btuqu5wybw666

610 18 18

hh真是个慢性子

|

关系型数据库 MySQL 数据库

【MySQL】mysql异常宕机无法启动处理过程

【MySQL】mysql异常宕机无法启动处理过程

hh真是个慢性子

619 1 1

其名美曰

|

12月前

|

机器学习/深度学习编解码 Java

RT-DETR改进策略【卷积层】| GnConv：一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作

RT-DETR改进策略【卷积层】| GnConv：一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作

其名美曰

482 13 13

RT-DETR改进策略【卷积层】| GnConv：一种通过门控卷积和递归设计来实现高效、可扩展、平移等变的高阶空间交互操作

其名美曰

|

12月前

|

机器学习/深度学习编解码计算机视觉

RT-DETR改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器结合频域计算和卷积操作降低噪声影响

RT-DETR改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器结合频域计算和卷积操作降低噪声影响

其名美曰

456 2 2

龙蜥社区（OpenAnolis）

|

网络协议安全 Linux

高性能网络SIG月度动态：virtio 动态中断调节优化、多项内核网络缺陷修复

一键查看高性能网络SIG月度动态。

龙蜥社区（OpenAnolis）

697 6 6

游客cxtb2yf2r55as

|

安全应用服务中间件 PHP

中间件漏洞

中间件漏洞

游客cxtb2yf2r55as

367 0 0

aliyun7689123603-22772

|

数据采集机器学习/深度学习算法

归一化（Normalization）是数据预处理

【10月更文挑战第2天】

aliyun7689123603-22772

884 0 0

ModelScope模型即服务

计算机视觉

热门文章

最新文章

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

腾讯混元最新开源：一张图，秒变游戏大片

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

EasyControl Ghibli：在线体验一键生成宫崎骏动画风，开源AI模型让你的照片秒变吉卜力

DreamActor-M1：字节跳动推出AI动画黑科技，静态照片秒变生动视频

AI-ClothingTryOn：服装店老板连夜下架试衣间！基于Gemini开发的AI试衣应用，一键生成10种穿搭效果

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

第五届伏魔挑战赛如约来袭，诚邀各路高手来战！