Flexible Vision Transformer开源,可生成任意分辨率图片

简介: 【2月更文挑战第16天】Flexible Vision Transformer开源,可生成任意分辨率图片

6bbf7aab052364143b2f46c6fecbe1bc.jpg
在数字图像处理和人工智能领域,生成高质量、高分辨率的图像一直是研究者们追求的目标。随着技术的进步,我们见证了各种模型和算法的诞生,它们在图像生成方面取得了显著的成就。然而,大多数现有的模型在处理不同分辨率的图像时仍然存在局限性。为了突破这一瓶颈,研究者们开发了一种名为Flexible Vision Transformer(FiT)的新型架构,它能够生成任意分辨率和宽高比的图像,为图像生成领域带来了革命性的变革。

FiT的核心思想是将图像视为一系列动态大小的令牌,而不是传统的固定分辨率网格。这种创新的方法使得FiT能够在训练和推理阶段灵活适应不同的图像尺寸,从而实现分辨率的泛化。这种方法不仅提高了图像生成的质量,还避免了因图像裁剪而导致的信息丢失。

在网络架构方面,FiT采用了2D Rotary Positional Embedding(RoPE)和Swish-Gated Linear Unit(SwiGLU),这些技术在大型语言模型中已经显示出其有效性。通过这些改进,FiT能够有效地管理填充令牌,从而在保持模型性能的同时,提高了对不同分辨率图像的适应能力。

在推理过程中,FiT采用了训练无关的分辨率外推技术,这些技术在大型语言模型中用于生成任意长度的文本。FiT对这些技术进行了定制,以适应2D RoPE,从而在多种分辨率和宽高比上提升了性能。这种灵活性使得FiT在处理不同分辨率的图像时表现出色,无论是在训练分布内的分辨率,还是超出训练分布的分辨率。

实验结果表明,FiT在多种分辨率下的性能均优于现有的CNN和变换器模型。在ImageNet-256数据集上训练的FiT-XL/2模型,在160×320、128×384、320×320、224×448和160×480等分辨率下,都取得了显著的成果。这些成果不仅证明了FiT在理论上的创新性,也展示了其在实际应用中的潜力。

FiT的开源为研究者和开发者提供了一个强大的工具,它不仅能够生成更多样化、更高质量的图像,还能够在处理不同分辨率和宽高比的图像时展现出强大的灵活性和泛化能力。

目录
相关文章
|
机器学习/深度学习 自然语言处理 文字识别
【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)
我们推出了一个名为CLIP的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称,类似于GPT-2和GPT-3的“零样本”功能。
|
算法 计算机视觉 异构计算
目标检测的Tricks | 【Trick7】数据增强——Mosaic(马赛克)
目标检测的Tricks | 【Trick7】数据增强——Mosaic(马赛克)
2156 0
目标检测的Tricks | 【Trick7】数据增强——Mosaic(马赛克)
|
6月前
|
人工智能 语音技术
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)模式。
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
|
6月前
|
机器学习/深度学习 5G 知识图谱
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
71 0
|
机器学习/深度学习 编解码 自然语言处理
7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本
7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本
125 0
|
算法 PyTorch 算法框架/工具
【DSW Gallery】基于EasyCV的STDC图像语义分割示例
EasyCV是基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具,并包含图像分类,度量学习,目标检测,姿态识别等视觉任务的SOTA算法。本文将为您介绍如何在PAI-DSW中使用EasyCV训练轻量化语义分割模型STDC
【DSW Gallery】基于EasyCV的STDC图像语义分割示例
|
机器学习/深度学习 机器人 PyTorch
使用LabVIEW实现基于pytorch的DeepLabv3图像语义分割
DeepLabv3图像语义分割在LabVIEW中的部署
243 0
|
机器学习/深度学习 存储 编解码
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
123 0
|
自然语言处理 算法 测试技术
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
129 0
|
人工智能 缓存 算法
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
324 0
下一篇
无影云桌面