英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory

简介: 【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory

5c0995ec1f74c03395e2b1e38af8d7c6.jpg
近日,英伟达公司推出了一项令人瞩目的技术创新,名为ConsiStory。这一创新意味着无需进行繁琐的训练,即可生成连贯的图片,为文生图模型领域带来了一次革命性的突破。当前,文生图模型在生成内容的一致性方面普遍存在问题,主要表现在两个方面:一是无法准确识别和定位图像中的共同主体,二是在不同图像之间无法保持主体的视觉一致性。而ConsiStory的问世,则为解决这一难题提供了一种崭新的思路和解决方案。

ConsiStory采用了一种全新的方法,通过共享和调整模型内部表示,实现了在无需任何训练或调优的情况下保持主体一致性的功能。这项技术的核心模块是SDSA(主体驱动自注意力),它允许在生成的图像批次中共享主体相关的视觉信息,从而确保不同图像中的主体保持一致的外观。SDSA主要扩大了扩散模型中的自注意力层,使得一个图像中的“提示词”不仅可以关注自身图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果。这样一来,主体的视觉特征就可以在整个批次中共享,不同图像中的主体互相"对齐",从而实现了生成图像的连贯性和一致性。

除了SDSA之外,ConsiStory还采用了特征注入技术,进一步增强了主体在细节层面的一致性。特征注入基于扩散特征空间建立的密集对应图,可以在图像之间共享自注意力输出特征。同时,图像中一些相似的优化地方之间也可以共享自注意力特征,这有效确保了主体相关的纹理、颜色等细节特征在整个批次中的一致性。特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享,同时设置相似度阈值,只在足够相似的优化之间执行,以确保生成图像的质量和连贯性。

在保持主体一致性的同时,ConsiStory还提供了保持主题一致性的功能。其中,锚图像提供了主题信息的参考功能,主要用于引导图像生成过程,确保生成的图像在主题上保持一致。锚图像可以是用户提供的图像,也可以是从其他来源获取的相关图像。在生成过程中,模型会参考锚图像的特征和结构,并尽可能地生成与之一致的图像。另外,可重用主体是通过共享预训练模型的内部激活来实现主题一致性的方法。在图像生成过程中,模型会利用预训练模型的内部特征表示来对生成的图像进行对齐,而无需进一步对齐外部来源的图像。这种方式使得生成的图像可以相互关注、共享特征,从而避免了传统方法中需要针对每个主题进行训练的难题,极大地降低了成本和时间投入。

ConsiStory的问世将极大地促进文生图模型在生成连贯图片方面的应用。它不仅具有重要的实用价值,还具有广阔的推广前景。在图像生成、艺术创作、设计等领域,ConsiStory都有着广泛的应用前景。例如,在电影、动漫等领域,可以利用ConsiStory快速生成连续、连贯的场景图像,节省了大量的人力和时间成本;在广告、品牌推广等领域,可以利用ConsiStory快速生成符合主题的图片,提升营销效果和品牌形象;在教育、培训等领域,可以利用ConsiStory生成丰富多彩、生动有趣的图片,增强学习和教学效果。因此,ConsiStory的推出不仅对于英伟达公司而言具有重要意义,对于整个文生图模型领域以及相关行业都将产生深远的影响。

目录
相关文章
|
机器学习/深度学习 人工智能 数据管理
文生图的基石CLIP模型的发展综述
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
2139 0
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
3994 0
|
5月前
|
机器学习/深度学习 编解码 缓存
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
749 7
|
11月前
|
编解码 物联网 API
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
521 4
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
1208 13
|
8月前
|
人工智能 编解码
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
万相2.1是阿里通义万相最新推出的视频生成模型,支持1080P无限长视频生成,具备复杂动作展现、物理规律还原、艺术风格转换等功能。
2079 27
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
|
7月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
4491 8
|
6月前
|
人工智能 编解码 API
刚刚,通义万相模型能力重磅升级!
刚刚,通义万相模型能力重磅升级!
|
7月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
1136 0
|
人工智能 自然语言处理 计算机视觉
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
【9月更文挑战第6天】最近,一篇论文在AI领域引起广泛关注,展示了如何以极低成本训练高质量文本生成图像(T2I)模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略,大幅降低计算成本,同时结合Mixture-of-Experts(MoE)层提升性能。最终,他们仅用1890美元就训练出了一个拥有11.6亿参数的模型,在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍,为资源有限的研究人员提供了新途径。尽管如此,该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。
147 1