Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒

简介: Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/j8b8rTEp9IV9XiCfQooThw


🚀 快速阅读

  1. 功能:Infinity 能够根据文本描述生成高分辨率、逼真的图像。
  2. 技术:采用位级自回归建模和无限词汇量标记器,提升图像生成质量。
  3. 性能:生成 1024×1024 的高质量图像仅需 0.8 秒,比 SD3-Medium 快 2.6 倍。

正文(附运行示例)

Infinity 是什么

公众号: 蚝油菜花 - Infinity

Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型,能够根据语言指令生成高分辨率、逼真的图像。该模型通过无限词汇量的标记器、分类器和位自纠正机制,显著提升了图像生成的细节和质量。

Infinity 在生成 1024×1024 的高质量图像时,仅需 0.8 秒,比 SD3-Medium 快 2.6 倍,且具有更快的推理速度。它为自回归文本到图像生成模型设定了新的性能标准。

Infinity 的主要功能

  • 文本到图像合成:用户输入文本描述,系统将生成相应的图像内容。
  • 空间推理:在生成图像时考虑空间关系,确保图像的空间布局合理。
  • 文本渲染:在图像中渲染文本,根据用户的指令调整字体、样式、颜色等。
  • 多风格和长宽比适应:生成不同风格和长宽比的图像,适应多样化的视觉效果需求。

Infinity 的技术原理

  • 位视觉自回归建模:基于位级别的预测框架重新定义视觉自回归模型,用无限词汇量的标记器和分类器。
  • 无限词汇量标记器:将标记器的词汇量扩展到无穷大,减少量化误差,提高细节重建能力。
  • 位自纠正机制:在训练过程中随机翻转某些位模拟预测错误,并重新量化残差特征,让系统具备自我纠正的能力。
  • 变换器(Transformer)扩展:扩展变换器的大小增强模型的生成能力。
  • 量化连续特征:将连续的特征量化为索引标签,通过位标签(量化特征)提供稳定的监督信号。

如何运行 Infinity

Infinity 提供了多种运行方式,包括通过 HuggingFace 模型库和 GitHub 仓库进行本地部署。以下是一个简单的运行示例:

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("FoundationVision/Infinity")
tokenizer = AutoTokenizer.from_pretrained("FoundationVision/Infinity")

# 输入文本描述
prompt = "A beautiful sunset over the mountains"

# 生成图像
output = model.generate(tokenizer(prompt, return_tensors="pt").input_ids)

# 保存生成的图像
output.save("generated_image.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
存储 JavaScript 前端开发
盘点主流 Flutter 状态管理库2024
状态管理是每个应用不可缺少的,本文将会盘点下主流的状态管理包。
778 2
盘点主流 Flutter 状态管理库2024
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
文生图关键问题探索
文生图(Text-to-Image Generation)是AIGC的重要方向,近年来模型效果显著提升,受到投资界与研究界高度关注。本文从评测体系、可控生成、个性化模型及高质量数据集四个角度探讨该领域面临的关键问题与研究进展。尽管生成模型如Diffusion Model和Stable Diffusion在效果与效率上突破显著,但在文本理解、生成控制、模型定制及数据质量等方面仍存在挑战。如何建立统一的评价标准、提升生成与文本的一致性、实现个性化定制及构建高质量多语言数据集,是未来研究与应用的关键方向。文生图的发展有望推动人机交互方式变革,成为人工智能迈向“人性化”的重要一步。
|
Linux 开发工具 git
FreeSWITCH小白入门之freeswitch安装篇
技术小白,今天带领大家一起freeswitch源码编译安装。我的上一篇文章已经搭建好了运行环境(centos7-Minimal),有人会说fs官方不是说在debian8下运行最稳定吗?我只能说,我个人爱好而已!
3194 0
|
11月前
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
907 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
11月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
535 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
11月前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
740 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
8月前
|
编解码 物联网 开发者
FLUX.1 Kontext 的全生态教程来啦!AIGC专区在线试玩!
Flux.1 Kontext [dev] 开源模型大家都用上了吗?小编汇总了3个使用教程,打包送上!
3119 1
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
2792 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

热门文章

最新文章