几个字就能生成画作,AIGC的时代即将到来

简介: 几个字就能生成画作,AIGC的时代即将到来

一、前言

最近AI绘画、聊天、代码生成可以说是刮起了一阵风,席卷了互联网。各大网站都在疯狂刷屏相关的内容,也收到了各界的热烈的关注。无论是AI绘画还是聊天这类的技术都属于同一个领域:人工智能生成内容(AIGC)

小伙伴可能会疑惑,什么是AIGC?

AIGC 即 AI Generated Content,是一种通过人工智能技术来自动或辅助生成内容的内容生成方式,是继专业生产内容(PGC, Professional-generated Content)、用户生产内容(UGC, User-generated Content)之后的新型内容创作方式,具有高效性和自动化的特点。随着深度学习模型不断完善、开源模式的推动,加快了 AIGC 走向落地应用的速度。正如我们所看到的,今年是AIGC爆火的一年,其实在年初并没有多少AIGC相关的内容出现在互联网,但就在这几个月间,迭代和传播速度呈指数级爆发。而且通过其创作的作品有的还能达到专业的级别,甚至“以假乱真”,这给我们带来了惊喜但也带来了忧虑。害怕被AI取代。

人类是否被AI取代的话题也是老生常谈的了,不可否认随着AI的出现和更新一定会带走一些传统的东西,这是无可争议的事实。但我们在面对新的技术变革时,与其担心哪天会被机器替代,不如而思考如何让机器为我们做事,让其成为我们的助手从而更高效,更有价值的完成工作或创造“世界”。所以抱有与技术共生的理念才能拥抱未来的变化。

参与AIGC领域研发的公司有很多,谷歌、Meta、英伟达等巨头都陆续加入了该赛道。但在国内没有几家公司参与其中,主要是因为接口开放的限制,AI生成相关应用难以使用。另一方面模型训练成本是巨大的,这也让不少企业望而却步。

但在我探索的过程中发现一款由昆仑万维集团与合作伙伴奇点智源推出的全系列AIGC模型与算法—“昆仑天工”,可以说是国内独树一帜存在,也在业界处于领先的地位。它们在AI生成能力覆盖图像、音乐、编程、文本等全模态领域都有着杰出的表现。这里将通过该公司的模型和产品深入介绍AIGC在几大方面的应用。

二、生成图像模型

2018年,一幅由 AI 生成的艺术品《埃德蒙·贝拉米肖像》以大约300万人民币的高价成功拍卖,从那时起,AI 艺术生成已经逐步走进大众的视野:

 今年出现了大量的文本生成图像模型,尤其是随着Stable Diffusion 的出现,让AI生成图像技术层面带来了质的突破,甚至已经可以生成能够媲美专业画师的作品,生成图片的效率也大大缩短,由原来的数小时到几分钟,甚至一秒就能出图。AI作画能在近期爆火,取得如此巨大进展的原因有很大一部分功劳要归属于它。

Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型

Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛。

Latent Diffusion Models整体框架如下图,首先需要训练好一个自编码模型(AutoEncoder,包括一个编码器 E 和一个解码器 D )。这样一来,我们就可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后我们再用解码器恢复到原始像素空间即可:

但是Stable Diffusion 模型并不能通过中文提示词输入来生成相应的图像。值得庆幸的是昆仑天工有一款名为天工巧绘 SkyPaint的AI绘画模型在 Stable Diffusion的基础上做了中文的支持,它也是第一款多语言Stable Diffusion分支模型。

除此之外 SkyPaint 使用 1.5 亿级的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了 用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景 多任务的海量语料集合,对模型进行了深度优化,得以让中文文本能够有更好的图像生成效果。 昆仑天工的天工巧绘 SkyPaint 模型均与 当前AI 作画领域最为领先的模型相当,下表对比了不同模型在 Flickr30K-CN 数据集上的性能表现:

在未来,它们还会支持更多语言的提示词输入,更强大的语言生成模型指导图像生成, 风格更加多样,增加更多艺术风格的支持 以及支持用户对生成的图像进行二次提示词编辑图像功能 。

SkyPaint已经发布了微信小程序的体验版本,我也体验了一些,效果确实不错:

输入文本:

生成效果:

、文本生成模型

自从人工智能研究公司OpenAI发布其语言模型GPT-3以来,越来越多的学生开始利用AI进行写作。甚至将作业要求输入OpenAI以及类似的程序,这些程序使用深度学习来生成文本能够达到“以假乱真”的效果。比如,一位在Reddit上名叫innovate_rye的生物化学学科的一年级学生,教授会安排一些包括扩展回答的简单家庭作业,当他把“写出生物技术的五件好事和坏事”提交给AI后,系统能给出一个最后评分为A的答案:

上面提到的GPT-3模式是有史以来最大的神经网络,由OpenAI在2020年5月发表的论文“Language Models Are Three Shot Leaners”中首次公开。它具有1750亿个参数,当时震惊了业界。tian

如今也有越来越多基于GPT-3模型的产品出现,最让我印象深刻的还是昆仑万维与奇点智源联合推出的瑶光和天枢模型。

瑶光的性能更强,适用于需要生成大量内容(论文、小说等)场景的应用,天枢则适用于需要实时生成的场景,例如:聊天对话、智能客服等。

它们都拥有多样的下游能力,包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等:

并在各项专业性领域的任务中(例如分类,匹配,填空,识别,识别)表现突出,与现有大模型的比试中也排列前茅(下图是它的“瑶光”模型与市面上主流的其它AI模型的参数对比):

能取得如此优异的成绩得益于他们针对中文领域构建了千亿级别的高质量数据集,通过高性能a100-gpu集群,训练(200张显卡,训练了4周,后续优化合计2周)得到百亿参数量的GPT-3生成模型。

上面提到的对话,中英翻译、对联等功能我们可以在奇点智源官网上体验到。

这里我分享下我体验到的一些功能:

1) 对对联

上联:只想摸鱼不上班,AI生成的下联是:常思致富不为官:

这对出来的:常思致富不为官,确实把我惊艳到了,对的非常工整,也契合上联的含义:。

2) 内容续写

我填写的内容是:写一篇小文章。今天去了游乐园

AI生成的内容如下:

也没有偏离题意,而且生成的内容文笔也不错,我们再稍微改改就可以得到一篇佳作了。要是我上学的年代有这样的技术,我的作文分数就不会那么低了。

AI生成代码

代码自动生成对很多程序员包括我认为都是很难有达到商业级水准的效果,是一项非常复杂、困难的挑战。但随着开发阿尔法go的公司deepmind推出的alphacode让这件事变得不再困难。令人惊讶的是,AlphaCode此前参加了网站Codeforces举行的10场编程比赛,排名前54.3%,击败了46%的参赛者,Elo评分1238。当然现阶段AlphaCode也只不过是在程序员的竞争中混了个一般水平,但随着时间的推移,在它经历越来越多的训练和改进后一定会产生出非常不错的效果。alphacode的原理架构图并不复杂:

  1. pretrain:在github的数据集上做pretrain。模型就是BERT,pretrain方法也差不多。
  2. fine-tune:在 codeforce 数据集上做 fine-tune,这个模型是标准的基于 transformer 的 encoder-decoder 结构,encoder输入是题目的描述(也包括:题目的tags、solution使用的语言、题目中的样例),decoder的输出对应的ground-truth是一个solution,可以是对的,也可以是错的。
  3. 用训练完的模型 sample 大量的 solution 出来,并且做过滤和聚类。过滤是为了去掉无法通过样例的代码(会干掉绝大部分),聚类是为了让实现不同但输出相同的代码只提交一次(节约提交的budget)。聚类中,还需要一个独立训练的生成测试数据的模型。这个步骤是针对竞赛题设计的,从这个步骤看,直接用生成的代码直接run错误的概率很高。
  4. 从聚类最大的类开始挑选,选出10个solution来提交。

昆仑万维在此领域也推出了第一款多语言开源编程大模型天工智码SkyCode,能够根据代码注释写代码(解题)等,还支持根据中文注释来序列代码。目前市面上的多种主流代码语言(java, javascript, c, c++, python, go, shell)等都得到了支持,该模型可以说是大大提高了写代码的效率,恐怕不久的将来,程序员只需要review代码就OK了。而且生成代码量的速度可以达到每百字的输出,下表对比了 Sky-code 模型与其他代码生成模型的性能:

模型生成的js代码:

模型生成的Python flask代码:

现阶段天工智码SkyCode支持Visual Studio Code插件扩展,我们可以在扩展中搜索skycode进行安装使用,具体的使用教程可以参考官网的插件使用引导:

未来它们还会陆续支持 Visual Studio, Neovim, JetBrains 等一系列的IDE和编辑器。

、总结

“昆仑天工”是由昆仑万维集团与合作伙伴奇点智源推出的全系列AIGC模型与算法,昆仑万维作为中国领先的互联网平台出海企业,逐渐在全球范围内形成了海外信息分发及元宇宙平台Opera、海外社交娱乐平台StarX、全球移动游戏平台Ark Games、休闲娱乐平台闲徕互娱、投资板块等五大业务,市场遍及中国、东南亚、非洲、中东、北美、南美、欧洲等地,为全球互联网用户提供社交、资讯、娱乐等信息化服务。截至2022年上半年,全球平均月活跃用户近 4 亿, 海外收入占比达 75%。昆仑万维于2015年登陆创业板,集团旗下的业务和子公司已先后拓展至美国、俄罗斯、日本、韩国、印度,以及欧洲、非洲、东南亚等地的其他国家。

2022年可以说是AIGC的元年,AIGC的时代也从此刻到来。AIGC 作为 UGC 后新一类创作方式,是数智时代的典型应用创新,它的快速发展不仅正在革新数字文化创作的生产范式,也在改变用户与人工智能的交互模式。当然,它现在还处于发展的初期,还有很多的问题等着去解决,还有不明确的未知需要去探索、踩坑。但相信在不久的将来,在高速发展的今天,在技术进步的推动下,在商业前景大好的前提下,AIGC 也将拓展出更多应用方式,更好地服务人们的生活。如 ChatGPT 一样的 AIGC 产品,终将越来越频繁地出现在我们的社会场景之中,成为常态。

目录
相关文章
|
15天前
|
人工智能 搜索推荐
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
|
人工智能 计算机视觉
FaceFusion:探索无限创意,创造独一无二的面孔融合艺术!
FaceFusion:探索无限创意,创造独一无二的面孔融合艺术!
FaceFusion:探索无限创意,创造独一无二的面孔融合艺术!
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
"FunAudioLLM震撼来袭!重塑语音交互新纪元,让每一次对话都充满魔法与情感共鸣!"
【8月更文挑战第11天】随着AI技术的发展,语音交互正经历革新。阿里巴巴推出的FunAudioLLM是一款先进的语音技术框架,包含SenseVoice和CosyVoice两大核心模型。SenseVoice擅长多语言语音识别与情感分析;CosyVoice则专精于自然语音生成,支持多语言、音色与情感控制。这两个模型结合,能实现在语音翻译、情绪对话等场景下的广泛应用,为人机交互带来更加真实与丰富的体验。通过开源社区的支持,FunAudioLLM将持续进化,成为语音技术领域的重要推手。
77 5
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
86 0
|
4月前
|
算法 数据库
解读妙笔生词智能写歌词软件:潜力无限还是有待提升?
**妙笔生词软件,融合科技与音乐的创新尝试,为歌词创作提供灵感与便利,适应多种风格。尽管能快速生成素材,但情感表达及逻辑连贯性仍有待加强,需持续优化以提升作品质量,期待未来能成为创作者的坚实伙伴。**
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
🌈创意无界,AI有术!生成式大模型提示词设计,让你的想象力飞得更高更远🌈
【8月更文挑战第1天】在今日科技浪潮中,生成式AI大模型如GPT系列、DALL-E等凭借深度学习技术,引领创意革命。提示词作为桥梁连接人类创意与AI技术,开启创意无限可能。优秀提示词需兼具技术理解与艺术想象,既具体又富想象空间。例如,创作“未来城市”画作时,从基础提示词“未来城市,高楼大厦,霓虹灯光”优化至“未来城市夜景,悬浮式建筑,流线型设计,色彩斑斓的霓虹灯光交织成梦幻般的网络,星空下的飞行器穿梭其间”,增加了细节与氛围描述,激发AI创作更独特作品。提示词设计让我们与AI共创奇迹,探索只存于梦中的世界,在创意新时代中飞得更高更远。
74 0
|
6月前
|
机器学习/深度学习 人工智能 算法
AI绘画与修图:重塑数字艺术的新纪元
AI绘画与修图:重塑数字艺术的新纪元
|
6月前
|
人工智能
让孩子用AI创作自己的故事,熊猫天天用AIGC解锁儿童的“想象世界”
【2月更文挑战第12天】让孩子用AI创作自己的故事,熊猫天天用AIGC解锁儿童的“想象世界”
167 2
让孩子用AI创作自己的故事,熊猫天天用AIGC解锁儿童的“想象世界”
|
6月前
|
人工智能
全球首部AI长篇电影即将首映
【2月更文挑战第13天】全球首部AI长篇电影即将首映
109 2
全球首部AI长篇电影即将首映
|
机器学习/深度学习 人工智能 异构计算
原来AI可以这么玩儿--数字分身
讲述基于EasyPhoto的AI写真生成示例,需要开通阿里云机器学习PAI-DSW免费试用
下一篇
无影云桌面