昆仑天工AIGC——基于Stable Diffusion的多语言AI作画大模型测评

简介: 昆仑天工AIGC——基于Stable Diffusion的多语言AI作画大模型测评

文章目标


1. AIGC

2. 技术背景

2.1. Stable Diffusion

2.1.1. 图像感知压缩(Perceptual Image Compression)

2.1.2. 隐扩散模型(Latent Diffusion Models)

2.1.3. 条件机制(Conditioning Mechanisms)

2.2. Chinese-CLIP

3. 昆仑天工AIGC

3.1. 模型贡献和展望

3.2. 性能对比

3.3. 效果展示

4. 小结


正文


1. AIGC


今年掀起了一股AI 艺术的创作热潮,随着Stable Diffusion的出现,人工智能生成内容模型(Artificial Inteligence Generated Content,AIGC)终于接近了商用化标准,然而目前可用的AIGC模型都需要在英文场景下使用。在这样的背景下,昆仑天工针对AIGC模型在中文领域劣势结合Chinese-CLIP模型推出了全系列的AIGC大模型,AI生成能力覆盖图像、音乐、编程、文本等全模态领域。


2. 技术背景


2.1. Stable Diffusion


Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。

17.png

它包含三个模块:感知压缩、扩散模型和条件机制。


2.1.1. 图像感知压缩(Perceptual Image Compression)


图像感知压缩通过VAE自编码模型对原图进行处理,忽略掉原图中的高频细节信息,只保留一些重要、基础的特征。该模块并非必要,但是它的加入能够大幅降低训练和采样的计算成本,大大降低了图文生成任务的实现门槛。


基于感知压缩的扩散模型的训练过程有两个阶段:(1)训练一个自编码器;(2)训练扩散模型。在训练自编码器时,为了避免潜在表示空间出现高度的异化,作者使用了两种正则化方法,一种是KL-reg,另一种是VQ-reg,因此在官方发布的一阶段预训练模型中,会看到KL和VQ两种实现。在Stable Diffusion中主要采用AutoencoderKL这种正则化实现。


具体来说,图像感知压缩模型的训练过程如下:给定图像x ∈ R H × W × 3  ,我们先利用一个编码器ε \varepsilonε来将图像从原图编码到潜在表示空间(即提取图像的特征)z = ε ( x ) z=\varepsilon(x)z=ε(x),其中z ∈ R h × w × c z\

。然后,用解码器从潜在表示空间重建图片x ~ = D ( z ) = D ( ε ( x ) ) 。训练的目标是使x = x ~


2.1.2. 隐扩散模型(Latent Diffusion Models)


18.png

扩散模型(DM)从本质上来说,是一个基于马尔科夫过程的去噪器。其反向去噪过程的目标是根据输入的图像x t去预测一个对应去噪后的图像x t + 1 即 x t + 1 = ϵ t ( x t , t ) ,   t = 1 , . . . , T。相应的目标函数可以写成如下形式:

27.png

这里默认噪声的分布是高斯分布N ( 0 , 1 ),这是因为高斯分布可以应用重参数化技巧简化计算;此处的x xx指的是原图。


而在潜在扩散模型中(LDM),引入了预训练的感知压缩模型,它包括一个编码器 ε 和一个解码器 D 。这样在训练时就可以利用编码器得到z t = ε ( x t )从而让模型在潜在表示空间中学习,相应的目标函数可以写成如下形式

28.png


2.1.3. 条件机制(Conditioning Mechanisms)


条件机制,指的是通过输入某些参数来控制图像的生成结果。这主要是通过拓展得到一个条件时序去噪自编码器(Conditional Denoising Autoencoder,CDA)ϵ θ ( z t , t , y ) \来实现的,这样一来我们就可通过输入参数y y来控制图像生成的过程。


具体来说,论文通过在UNet主干网络上增加cross-attention机制来实现CDA,选用UNet网络是因为实践中Diffusion在UNet网络上效果最好。为了能够从多个不同的模态预处理参数y yy,论文引入了一个领域专用编码器(Domain Specific Encoder) τ θ 它将y 映射为一个中间表示 τ θ ( y ) ∈ R M × d r ,这样我们就可以很方便的将y yy设置为各种模态的条件(文本、类别等等)。最终模型就可以通过一个cross-attention层映射将控制信息融入到UNet的中间层,cross-attention层的实现如下:

22.png

其中23.png是UNet的一个中间表征; 24.png分别是三个权重矩阵。此时,带有条件机制的隐扩散模型的目标函数可以写成如下形式:

25.png


2.2. Chinese-CLIP


Chinese-CLIP是OpenAI训练的大规模语言模型,在今年7月份开源在Github上,详情可点击 Chinese-CLIP 查看。它是 CLIP 模型的一个变体,使用大规模中文数据进行训练(超过2亿图文对)。它基于open_clip project建设,经过训练可以识别和分类图像和文本,并针对中文领域数据以及在中文数据上实现更好的效果做了优化,专门适用于处理中文语言和文本。Chinese-CLIP可以理解并生成自然语言文本,以帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。


21.png


3. 昆仑天工AIGC


3.1. 模型贡献和展望


昆仑天工的这款AI绘画大模型在Stable Diffusion的基础上,利用Chinese-CLIP构造了大规模的中文图文对数据集进行训练,这使得该模型支持中英双语提示词输入实现文字生成图像。总体来说,该模型相较于现有模型有三个大的共享:


在增加中文提示词输入能力的同时兼容原版stable_diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在昆仑天工的模型上使用。

使用超过1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合。

训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练,提高模型性能。

同时,该模型具备功能可扩展性,对于之后的技术发展趋势和展望主要集中在:


除中英文外,更多语言的提示词输入支持 ;

更强大的语言生成模型指导图像生成,而非局限于Stable Diffusion;

绘画风格更加多样,增加更多艺术风格的支持;

支持用户对生成的图像进行二次提示词编辑图像功能,方便用户调整生成图像。


3.2. 性能对比


昆仑天工的AIGC模型(prev_online、hide77_gpt2)在Flickr30K-CN数据集上与6个基准算法进行了对比。


实验设置:


Benchmark:采用Chinese-CLIP(CN_CLIP),先根据模型的encoder得到text和image的embedding,再经过统一的KNN检索,Recall,从而计算出检索任务的Recall@1/5/10和mean recall(Recall@1/5/10的均值),得到实验结果。

评估数据集:Flickr30K-CN的Test数据集

采用同级别image encoder模型:ViT-L/14

实验结果如下表所示:

20.png

可以看到,不论是文本生成图像还是图像生成文本任务,昆仑天工在Recall指标上都超越了绝大多数模型。


3.3. 效果展示


为了展示昆仑天工AIGC大模型的效果,我们对多种艺术风格和画面主题的提示词进行了试用,结果如下:

  • 人物立绘(动漫、CG、剪纸、古风)

  • 风景景像(城市、原野、未来、古代)

  • 艺术绘画(油画、水彩、版画、水墨)

  • 平面设计(线性、面性、扁平、手绘)

  • 细节质感(毛发、4K、色彩、局部)

  • 英文提示词


4. 小结


昆仑天工的AIGC大模型包括三大功能:


文本。下游能力包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等。

代码。拥有多种主流编码语言的续写,以及根据(中/英文)注释写代码的能力。

绘画。支持输出多语种提示词,实现文字生成图像的功能。

本次我们测评和解析的是绘画功能,文本及代码两大功能也十分实用,就不在此赘述,感兴趣的伙伴们可以去官网感受体验,一定会有新发现~

19.png

昆仑万维集团作为中国领先的互联网平台出海企业,逐渐在全球范围内形成了海外信息分发及元宇宙平台Opera、海外社交娱乐平台StarX、全球移动游戏平台Ark Games、休闲娱乐平台闲徕互娱、投资板块等五大业务,市场遍及中国、东南亚、非洲、中东、北美、南美、欧洲等地,为全球互联网用户提供社交、资讯、娱乐等信息化服务。截至2022年上半年,全球平均月活跃用户近 4 亿, 海外收入占比达 75%。昆仑万维于2015年登陆创业板,集团旗下的业务和子公司已先后拓展至美国、俄罗斯、日本、韩国、印度,以及欧洲、非洲、东南亚等地的其他国家。

————————————————

版权声明:本文为CSDN博主「白水baishui」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/baishuiniyaonulia/article/details/128277746


相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
|
10月前
|
机器学习/深度学习 人工智能 算法
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
645 0
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
|
11月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1136 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
8月前
|
人工智能 自然语言处理 搜索推荐
年终盘点AIGC:生成式AI一路生花,互联网开始步入大模型时代
本文探讨了自ChatGPT发布以来,生成式AI对互联网和人们生活带来的深刻影响。文章分析了从“移动互联网”到“智能互联网”的转变,强调AIGC如何通过自然语言交互提升信息获取效率,并在内容创作等领域展现巨大潜力。同时,作者指出当前AIGC应用开发存在的问题,如过度聚焦对话助手,建议开发者探索更深层次的场景结合。最后,文章展望了AIGC未来可能的法律监管及现象级产品的出现,并鼓励普通人善用AIGC工具提升效率,保持创造力以适应时代变化。
148 0
年终盘点AIGC:生成式AI一路生花,互联网开始步入大模型时代
|
10月前
|
人工智能 自然语言处理 搜索推荐
创作者会被AI取代吗?AIGC为电影行业带来新变革
在AI技术飞速发展的今天,AIGC(AI生成内容)正深刻改变电影行业的内容生成、制作流程与商业模式。创作者角色从执行者向策划者转变,需与AI协作挖掘创意与情感价值。生成式人工智能认证(GAI认证)成为新时代创作者必备资质,助力其在人机共生的新生态中保持竞争力,共同推动创作领域迈向更高层次。拥抱变革,共创未来,是每个创作者在AI时代的必由之路。
创作者会被AI取代吗?AIGC为电影行业带来新变革
|
9月前
|
人工智能 自然语言处理 搜索推荐
JeecgBoot AI 应用开发平台,AIGC 功能介绍
JeecgBoot推出AIGC功能模块,包含AI应用开发平台与知识库问答系统,支持AI流程编排、模型管理、知识库训练及向量库对接。基于LLM大语言模型,提供智能对话、RAG检索增强生成等功能,兼容多种大模型(如DeepSeek、Qwen等)。平台结合低代码与AIGC,适用于复杂业务场景,支持快速原型到生产部署,助力用户打造个性化智能体,如“诗词达人”或“翻译助手”,并可嵌入第三方系统提升交互能力。项目开源,欢迎体验与交流。
379 0
JeecgBoot AI 应用开发平台,AIGC 功能介绍
|
9月前
|
人工智能 自然语言处理 测试技术
通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品
阿里云的通义灵码是一款基于通义大模型的AI编程助手,能够智能生成代码、优化结构、排查错误并自动生成测试用例,支持多种主流编程语言。在2025年入选《值得关注的AIGC产品》榜单,凭借卓越技术与广泛应用场景成为国内开发者首选。通义灵码已在国内多个行业落地,大幅提升开发效率与代码质量,同时针对中文编程场景优化,支持企业内网部署保障数据安全,推动AI编程技术在教育与科研领域的创新应用。
|
10月前
|
机器学习/深度学习 人工智能 安全
Stable Diffusion 3.0 :一键开启你的AI绘画之旅
本文介绍了Stable Diffusion 3.0的主要优化,包括采用DiT架构提升多对象生成能力及“流匹配”技术加速采样。同时解决了部署复杂、显卡需求高等问题,可通过阿里云计算巢一键部署,实现即开即用。文章展示了人像、动漫风、科幻风等生成效果,并提供中文菜单设置与插件下载教程。无论是专业设计师还是普通用户,都能轻松开启智能创作新时代。 Flux模型支持即将上线,值得期待。
|
12月前
|
人工智能
🎨 设计师必备!AI Stable Diffusion 提示词神器,让你秒变创意大师!
AI绘图新时代来临,设计师必备工具——**白盒子AI绘图提示词生成器**助你轻松跨越提示词难题。该工具操作简便,支持中英文切换,涵盖近1000个精选提示词,适用于各种风格创作。无论是新手还是专业设计师,都能大幅提升工作效率,快速实现创意构想。网址:[https://www.baihezi.com/ai-painting-prompt](https://www.baihezi.com/ai-painting-prompt)
788 19
🎨  设计师必备!AI Stable Diffusion 提示词神器,让你秒变创意大师!