Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/j8b8rTEp9IV9XiCfQooThw


🚀 快速阅读

  1. 功能:Infinity 能够根据文本描述生成高分辨率、逼真的图像。
  2. 技术:采用位级自回归建模和无限词汇量标记器,提升图像生成质量。
  3. 性能:生成 1024×1024 的高质量图像仅需 0.8 秒,比 SD3-Medium 快 2.6 倍。

正文(附运行示例)

Infinity 是什么

公众号: 蚝油菜花 - Infinity

Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型,能够根据语言指令生成高分辨率、逼真的图像。该模型通过无限词汇量的标记器、分类器和位自纠正机制,显著提升了图像生成的细节和质量。

Infinity 在生成 1024×1024 的高质量图像时,仅需 0.8 秒,比 SD3-Medium 快 2.6 倍,且具有更快的推理速度。它为自回归文本到图像生成模型设定了新的性能标准。

Infinity 的主要功能

  • 文本到图像合成:用户输入文本描述,系统将生成相应的图像内容。
  • 空间推理:在生成图像时考虑空间关系,确保图像的空间布局合理。
  • 文本渲染:在图像中渲染文本,根据用户的指令调整字体、样式、颜色等。
  • 多风格和长宽比适应:生成不同风格和长宽比的图像,适应多样化的视觉效果需求。

Infinity 的技术原理

  • 位视觉自回归建模:基于位级别的预测框架重新定义视觉自回归模型,用无限词汇量的标记器和分类器。
  • 无限词汇量标记器:将标记器的词汇量扩展到无穷大,减少量化误差,提高细节重建能力。
  • 位自纠正机制:在训练过程中随机翻转某些位模拟预测错误,并重新量化残差特征,让系统具备自我纠正的能力。
  • 变换器(Transformer)扩展:扩展变换器的大小增强模型的生成能力。
  • 量化连续特征:将连续的特征量化为索引标签,通过位标签(量化特征)提供稳定的监督信号。

如何运行 Infinity

Infinity 提供了多种运行方式,包括通过 HuggingFace 模型库和 GitHub 仓库进行本地部署。以下是一个简单的运行示例:

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("FoundationVision/Infinity")
tokenizer = AutoTokenizer.from_pretrained("FoundationVision/Infinity")

# 输入文本描述
prompt = "A beautiful sunset over the mountains"

# 生成图像
output = model.generate(tokenizer(prompt, return_tensors="pt").input_ids)

# 保存生成的图像
output.save("generated_image.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
167 0
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
2月前
|
机器学习/深度学习 编解码 算法
什么是超分辨率?浅谈一下基于深度学习的图像超分辨率技术
超分辨率技术旨在提升图像或视频的清晰度,通过增加单位长度内的采样点数量来提高空间分辨率。基于深度学习的方法,如SRCNN、VDSR、SRResNet等,通过卷积神经网络和残差学习等技术,显著提升了图像重建的质量。此外,基于参考图像的超分辨率技术通过利用高分辨率参考图像,进一步提高了重建图像的真实感和细节。
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
50 0
|
4月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
6月前
|
机器学习/深度学习 编解码 算法框架/工具
使用Python实现深度学习模型:图像超分辨率与去噪
【7月更文挑战第17天】 使用Python实现深度学习模型:图像超分辨率与去噪
178 4
|
8月前
|
机器学习/深度学习 vr&ar
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
219 0
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
|
机器学习/深度学习 编解码 达摩院
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!
27208 3
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
|
编解码 人工智能
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
155 0
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
213 0

热门文章

最新文章