Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/j8b8rTEp9IV9XiCfQooThw


🚀 快速阅读

  1. 功能:Infinity 能够根据文本描述生成高分辨率、逼真的图像。
  2. 技术:采用位级自回归建模和无限词汇量标记器,提升图像生成质量。
  3. 性能:生成 1024×1024 的高质量图像仅需 0.8 秒,比 SD3-Medium 快 2.6 倍。

正文(附运行示例)

Infinity 是什么

公众号: 蚝油菜花 - Infinity

Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型,能够根据语言指令生成高分辨率、逼真的图像。该模型通过无限词汇量的标记器、分类器和位自纠正机制,显著提升了图像生成的细节和质量。

Infinity 在生成 1024×1024 的高质量图像时,仅需 0.8 秒,比 SD3-Medium 快 2.6 倍,且具有更快的推理速度。它为自回归文本到图像生成模型设定了新的性能标准。

Infinity 的主要功能

  • 文本到图像合成:用户输入文本描述,系统将生成相应的图像内容。
  • 空间推理:在生成图像时考虑空间关系,确保图像的空间布局合理。
  • 文本渲染:在图像中渲染文本,根据用户的指令调整字体、样式、颜色等。
  • 多风格和长宽比适应:生成不同风格和长宽比的图像,适应多样化的视觉效果需求。

Infinity 的技术原理

  • 位视觉自回归建模:基于位级别的预测框架重新定义视觉自回归模型,用无限词汇量的标记器和分类器。
  • 无限词汇量标记器:将标记器的词汇量扩展到无穷大,减少量化误差,提高细节重建能力。
  • 位自纠正机制:在训练过程中随机翻转某些位模拟预测错误,并重新量化残差特征,让系统具备自我纠正的能力。
  • 变换器(Transformer)扩展:扩展变换器的大小增强模型的生成能力。
  • 量化连续特征:将连续的特征量化为索引标签,通过位标签(量化特征)提供稳定的监督信号。

如何运行 Infinity

Infinity 提供了多种运行方式,包括通过 HuggingFace 模型库和 GitHub 仓库进行本地部署。以下是一个简单的运行示例:

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("FoundationVision/Infinity")
tokenizer = AutoTokenizer.from_pretrained("FoundationVision/Infinity")

# 输入文本描述
prompt = "A beautiful sunset over the mountains"

# 生成图像
output = model.generate(tokenizer(prompt, return_tensors="pt").input_ids)

# 保存生成的图像
output.save("generated_image.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
162 0
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
25天前
|
人工智能 编解码 机器人
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
93 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
39 0
|
4月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
7月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
82 6
|
8月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
185 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
编解码 人工智能
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
155 0
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
210 0

热门文章

最新文章