文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉文章正文

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

2024-12-16 563

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FreeScale是一个无需微调的推理框架，旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，首次实现了8K分辨率图像的生成，显著提高了生成内容的质量和保真度，同时减少了推理时间。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

无需微调：FreeScale不需要对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
高分辨率生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
多尺度信息融合：通过结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。

正文（附运行示例）

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架，旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成，不仅提高了生成内容的质量与保真度，还减少了推理时间，显著超越了现有方法。

FreeScale 的主要功能

高分辨率视觉生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
无需微调：与传统需要微调的方法不同，FreeScale不要求对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
处理高频信息：FreeScale通过提取和融合不同尺度的信息，有效管理高频信息，减少生成内容中的重复模式和伪影。
多尺度信息融合：基于结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。
灵活控制细节级别：用户能根据需要调整不同区域的细节级别，实现更精细的视觉效果控制。

FreeScale 的技术原理

定制自级联上采样：从纯高斯噪声开始，逐步去噪，用训练分辨率生成图像，基于上采样获得更高分辨率的图像。
受约束的膨胀卷积：为扩大卷积的感受野并减少局部重复问题，FreeScale在特定的网络层中使用膨胀卷积。
尺度融合：在去噪过程中，调整自注意力层，使其同时具有全局和局部注意力结构，基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
频率成分提取与融合：基于提取所需的频率成分并进行融合，优化高分辨率生成质量，减少高频信息引发的重复模式问题。
细节级别控制：调整生成细节的级别，基于缩放余弦衰减因子控制新生成细节的级别，实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

从Hugging Face下载预训练的SDXL检查点。
修改run_freescale.py文件，并在终端中输入以下命令：
```bash
python run_freescale.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 细节比例，通常为1.0 ~ 2.0。对于8K图像生成，建议cosine_scale <= 1.0。


### 2. 灵活控制细节级别
1. 下载预训练的SDXL检查点。
2. 修改`run_sdxl.py`文件，生成原始分辨率的基准图像：
```bash
python run_sdxl.py

将生成的图像放入imgen_intermediates文件夹。
（可选）使用其他分割模型（如Segment Anything）生成掩码，并将其放入imgen_intermediates文件夹。
修改run_freescale_imgen.py文件，生成最终的高分辨率图像：
```bash
python run_freescale_imgen.py

resolutions_list: 每个阶段自级联上采样的分辨率。

cosine_scale: 前景细节比例，通常为2.0 ~ 3.0。

cosine_scale_bg: 背景细节比例，通常为0.5 ~ 1.0。

```

资源

项目官网：http://haonanqiu.com/projects/FreeScale
GitHub 仓库：https://github.com/ali-vilab/FreeScale
arXiv 技术论文：https://arxiv.org/pdf/2412.09626

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

视觉智能开放平台

编解码

人工智能

蚝油菜花

目录

相关文章

游客rco5ta3vbbpc2

|

7月前

|

前端开发 vr&ar

南京观海微电子----MOS管的放大电路分析-运用模电的理论计算验证

本文介绍功率MOS管在放大电路中的应用，通过三电阻偏置电路分析其静态工作点与动态小信号模型。结合Multisim仿真，验证MOS管是否工作在饱和区，并计算跨导、电流及电压增益，结果与理论相符，体现模电理论在实际设计中的指导作用。（239字）

游客rco5ta3vbbpc2

376 0 0

蓝易云

|

9月前

|

网络安全开发工具 git

在GitLab CI中同步HTTPS仓库地址的yaml配置

最后，提交并推送 `.gitlab-ci.yml`文件到您的GitLab仓库。GitLab CI/CD将自动识别这个文件，并在每次推送到 `master`分支时执行定义的同步任务。

蓝易云

455 16 16

1442573646622176

|

数据采集人工智能安全

数据治理的实践与挑战：大型案例解析

在当今数字化时代，数据已成为企业运营和决策的核心资源。然而，随着数据量的爆炸性增长和数据来源的多样化，数据治理成为了企业面临的重要挑战之一。本文将通过几个大型案例，探讨数据治理的实践、成效以及面临的挑战。

1442573646622176

2135 4 4

数据治理的实践与挑战：大型案例解析

程序员小假

|

存储负载均衡算法

我们来说一说 Java 的一致性 Hash 算法

我是小假期待与你的下一次相遇 ~

程序员小假

673 1 1

hh真是个慢性子

|

关系型数据库 MySQL 数据库

【MySQL】mysql异常宕机无法启动处理过程

【MySQL】mysql异常宕机无法启动处理过程

hh真是个慢性子

744 1 1

蚝油菜花

|

人工智能 vr&ar

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术，仅需一张照片即可生成高度逼真的3D模型，支持面部细节、全身姿态和纹理恢复，适用于影视、游戏、虚拟现实等多个领域。

蚝油菜花

2504 4 4

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

游客7v53mftipku2u

|

缓存监控网络协议

Linux操作系统的内核优化与实践####

本文旨在探讨Linux操作系统内核的优化策略与实际应用案例，深入分析内核参数调优、编译选项配置及实时性能监控的方法。通过具体实例讲解如何根据不同应用场景调整内核设置，以提升系统性能和稳定性，为系统管理员和技术爱好者提供实用的优化指南。 ####

游客7v53mftipku2u

655 8 9

龙蜥社区（OpenAnolis）

|

网络协议安全 Linux

高性能网络SIG月度动态：virtio 动态中断调节优化、多项内核网络缺陷修复

一键查看高性能网络SIG月度动态。

龙蜥社区（OpenAnolis）

892 6 6

BetterBench

|

存储算法数据挖掘

【数据挖掘】2022年京东算法工程师笔试题（23届）

2022年京东面向23届的算法工程师笔试题，包含了关于MySQL内部存储代码的优势、SQL使用、数学问题、ReLU函数特性、栈操作以及F1-Score计算等方面的问题。

BetterBench

603 0 0

aliyun7689123603-22772

|

数据采集机器学习/深度学习算法

归一化（Normalization）是数据预处理

【10月更文挑战第2天】

aliyun7689123603-22772

1129 0 0

ModelScope模型即服务

计算机视觉

热门文章

最新文章

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

腾讯混元最新开源：一张图，秒变游戏大片

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！