创意加速器:AI 绘画创作
摘要:本文整理自绍懿老师在云端问道 6 期方案教学-创意加速器:AI 绘画创作的分享。内容主要为以下七部分:
1、一些有趣的应用
2、通义万相介绍
3、如何使用通义万相
4、通义万相的优势
5、典型案例
6、收费标准
7、实操
01、一些有趣的应用
本次主题是创业加速器,AI 绘画创作。比较通俗一点就是怎么利用阿里云的通义万相大模型产品在日常的 Web 应用或者服务中实现先进的图像生成,就是传统意义上文字生成图片或者图片生成图片。
日常生活中有没有遇到过一些有趣的应用,比如第一个是通过一段文字的描述,比如蜡笔画,森林里有一个可爱的蘑菇形状的房子,标题叫森林小屋,通过一段文字,就能快速生成右边的图像,把左边文字里比较关键的元素或者因子都在图画里面生成出来。第二个是通过手绘或者鼠标随便涂鸦一个比较简陋的一棵小树。然后通过一段文字描述,希望把涂鸦生成一棵苍天大树,通过魔法把它生成右边非常有立体感,非常美的一颗苍天大树的图像。第三种场景是有自己的证件照或者自拍,加上各种动漫人物或者卡通人物的图像或者风格,把这两个图片结合,然后生成符合自己和以及卡通人物结合的人格重绘的图画,把自己变成的更加卡通化,或者更加艺术化。还会遇到一些场景,比如人物写真,证件照。现在没有空去照相馆拍证件照,能不能快速生成一个证件照,或者 AI 换脸,因为现在比较流行短视频或者各种有趣的小程序,都有把明星的脸换成自己脸,或者和儿子通过生成把脸互换达到很有趣的效果。还有背景替换,没有去过某个网红打卡地点,比如黄山一棵松,想让它做背景来生成一张照片。怎么样才能做到上面说的有趣的应用,介绍通义万相产品。
02、通义万相介绍
通义万相是一个不断进化的人工智能的艺术创作型的大模型,它是一个 AI 大模型,站在产品的整个架构的维度观察。从底向上看,最底层大模型依赖阿里云基础和最稳定的 S 层的基础设施,包括存储、计算以及网络。第二层是基础的平台包括进行推理训练,也是基于阿里云的推理平台 PAI 来实现。第三层是各类丰富的数据接入以及数据标注以及 SOP 的处理流程,再往上是最核心的模型的能力层,这里面分为两部分,第一部分是文生图的基础大模型,是所有模型共用的基础。第二部分是可以针对各行业或者各领域,哪怕是自定义的模型,比如电商行业,营销行业,有这种行业型的模型,再往上一层是插件管理层,相对比较灵活,可以插拔式的把模型训练的插件,或者评测插件,以及其它一些推理相关插件融入进来,最上层是 SARS,通过标准的服务能力,像上层的应用,不管是电商的行业应用或者营销的行业应用提供整个模型的服务能力,这是整个万相的构成,从万相产品的构成可以分析,从基础层是依赖阿里云的 S 以及 PAI 的推理平台,具备稳定、合规以及高性能的特性。第二个,因为模型层比较灵活,除基础模型还能融入行业的领域大模型,所以它具备模型可扩散的灵活性。第三个是各种插件的灵活配置,基于这些最终能输出非常丰富的内容。包括通用的内容,或者某个行业特定的内容以及非常个性化的内容。
03、如何使用通义万相
介绍完通义万相后,如何使用,产品不可貌相,虽然整个比较复杂,但它使用起来非常简单,总结成两步是一键开通,简单集成,一键开通是通过阿里云开通 DashScope 产品服务。DashScope 是一个灵积的模型服务,可以简单理解为很多大模型提供服务的接入能力,就是对外统一提供服务,然后通过调用服务,背后会调用大模型进行算法生成以及结果返回。开通后需要创建一个 API-KEY,API-KEY 是访问服务的密钥,相当于进一个屋子需要一把钥匙,API-KEY 是负责整个服务访问密钥鉴权与计费,创建完后,API-KEY 非常重要,需要非常合理的保管 API-KEY。开通完之后进入第二层,如何集成和调用服务,基于 DashScope 的服务调用都基于 API,然后通过自己的应用代码以及对应的 API 相关的参数的集成,调用不同场景下的 API,快速的实现整个链路的串通,最后实现测试与使用,整个流程非常简单,在这个过程中有几个比较重要的点需要注意,第一个是,API-KEY 一个主账号下面就一套,主账号和子账号共享一套 API-KEY,所以 API-KEY 需要正确的保存与使用,不要轻易的造成泄露,最终会产生计费。第二个是不同的场景的 API,对 API 调用的入参以及原始图片的限制不同,可以具体参考通义万相上面 API 的具体文档,API 还会跟着产品的迭代和演进会不停的增加,会有更丰富的场景,可以时刻关注。第三个是 API-KEY 不能泄露,把 API-KEY 存在服务端,也就是云上的应用端,如果把 API-KEY 放在调用端可能会造成泄露,一旦造成泄露,就可能会拿着 API-KEY 来做模型的服务调用,会造成自损,所以一定要很好的保存 API-KEY , 如果发现 API-KEY 已经造成泄露,可能产生风险,可以通过 DashScope 灵积模型服务的控制台把原来的 API-KEY 进行删除,然后重新创建一个来做新的调用。
04、通义万相的优势
总结通义万相的五个优势。第一个,通义万相具备服务稳定性与应用性,官方承诺通义万相的服务可用性 SLA 不会低于 99%,并且能够支持高并发和大流量的场景。第二个,整个通义万相的使用和接入非常简单,可以兼容各种开发语言,最终都转化为 HTTP 接口的方式来进行 API 的调用。第三个是通义万相的功能非常多样化,除基础的文本转图像外,通义万相还支持图像绘画,人像风格化以及图像编辑等高级操作,而且功能在不断的扩充中,在不同的领域的创作提供广泛的灵活性以及创造性的空间。第四个,通义万相在整个行业里效果比较领先,不管从生成图像的一致性,或者AI绘画结果的布局性、自然性以及各种细节逼真效果上都相对领先。最后,通义万相是集成各种行业的大模型,在应用的场景上非常广泛,比如电商行业,或者广告营销行业,像教育培训机构行业,或者营销,只要需要图片生成或者大量图片处理的领域,都可以用到通义万相。
05、典型案例
5.1电商场景案例
下面以两个行业为例,简单举例通义万相在这个行业里面起到什么作用。一是电商行业,看到创意设计部分,就是客户的诉求,根据商品的设计原稿,能够快速的生成效果图来判断原稿是否具备时尚,或者设计美观的效果。原先整个过程都需要纯手绘完成,现在只需要通过设计一个初稿,然后通过通义万相生成右边的效果图,在这个过程中将原来三天的工作时间,缩短成一个小时。第二是拍摄场景的参考,比如有一个新的商品或产品,需要把它放在已经提前预设的不同拍摄场景或者背景中来展现它的效果,可以天然用这个效果,将不同商品以及背景图相结合,达到美观的展示效果。第三个是 AI 试衣,比如淘宝商家需要聘请一个模特,然后再将衣服请模特来穿到身上,再拍摄效果图,需要花费人力,物力以及大量的时间,那通过通义万相,可以通过模特以及新款的衣服图片的智能组合就能快速生成效果图,来达到刚刚消耗人力物力的步骤。有些商家在发布商品的时候,对商品简单拍摄,但需要在上架的时候具备美观的效果,可以通过商品加一段比较带有语义的文字描述,生成比较美观的商品照片。比如香水需要表现出它非常灵动的效果,最终可能生成这个效果图。在这个行业,通义万相能帮助用户达到降本增效,又能达到设计美观的效果。
5.2营销场景案例
第二个场景是营销场景,比如每日打卡的时候需要自己生成风格的重绘,或者重大活动的时候要生成海报,通过文生图生成类似的。
06、收费
可以参考这个收费标准,当开通灵积模型服务后,新账号刚开通的时候会提供 500 兆免费的额度,有效期是 180 天。过了有效期或者超过免费额度的时候,按图片的张数收费,每一个 API 的单价不一样。通义万相在不断的扩充 API 以及场景,可以通过通义万相的官网收费做一个参考。新的 API 出来的时候都会有公测和免费额度。
07、实操
下面实操部署一个通义万相的 Demo 应用,让大家有体感使用通义万相,生成自己喜欢或者感兴趣的图片,部署架构有三个组成部分。
第一个是云端会有一台按量付费的云服务器,ECS 来部署,会提供一个 Demo 的应用程序,可以一键部署到服务器里面来承载,相当于日常的服务端。第二个是对象存储 OSS,来存储和处理活动使用过程中需要上传的原始图片,或者最终通过大模型生成的效果图片,可以存储在对象存储里面。第三个是需要开通邻近的模型服务,开通之后通过它调用到最后的通义万相大模型。首先用户端,也就是浏览器端,在这个案例里面,通过提交的请求,可能是一段文字描述,也可能是一个原始图再加上一段文字描述将生成图片的请求发送到服务端,服务端会判断到底是文字生成图片,还是图片生成图片,需要哪个场景的 API,再判断是否将原始图片上传到 OSS,在这基础上通过应用程序代码调用灵积模型的服务能力,灵积接收到应用程序的调用的时候,判断如果是图片生成图片,会到 OSS 上把原始图片拉下来,如果是文字生成图片,就直接调用大模型的能力,最后将结果统一返回到用户端,用户端调用的时候不是同步返回结果,而是提交完后通过异步来获取任务结果,因为整个大模型在运算数据以及做模型处理的时候,需要一定时间,可能会花费几秒钟,有些的 API 可能会花费 10 秒到 15 秒或者 15 秒以上,因为整个模型有一个排队或者算力的过程。如果通过同步来等待服务端返回,有些浏览器或者 API 汇报超时,在比较合理的调用方式上,建议通过提交请求,然后异步获取结果的过程,如果想课后复习或者分享给小伙伴,可以到阿里云的官网,有个技术解决方案的频道,这个频道里面的 AI 模块的第一个就是通义万相的文本绘图,今天的课程的所有的相关内容除内容介绍与架构介绍之外,还可以快速的进入部署的操作界面完成部署。