云端问道6期方案教学-创意加速器:AI 绘画创作

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 本文整理自绍懿老师在云端问道第6期关于“创意加速器:AI绘画创作”的分享,主要介绍阿里云通义万相大模型的应用。内容涵盖七大部分:有趣的应用场景、通义万相简介、使用方法、优势特点、典型案例(如电商和营销场景)、收费标准及实操部署。通过这些内容,用户可以快速了解如何利用通义万相实现文字生成图片、图像编辑等功能,并应用于实际业务中,提升效率与创造力。

创意加速器:AI 绘画创作

 

摘要:本文整理自绍懿老师在云端问道 6 期方案教学-创意加速器:AI 绘画创作的分享。内容主要为以下七部分:

1、一些有趣的应用

2、通义万相介绍

3、如何使用通义万相

4、通义万相的优势

5、典型案例

6、收费标准

7、实操

 

01、一些有趣的应用

image.png

本次主题是创业加速器,AI 绘画创作。比较通俗一点就是怎么利用阿里云的通义万相大模型产品在日常的 Web 应用或者服务中实现先进的图像生成,就是传统意义上文字生成图片或者图片生成图片。

日常生活中有没有遇到过一些有趣的应用,比如第一个是通过一段文字的描述,比如蜡笔画,森林里有一个可爱的蘑菇形状的房子,标题叫森林小屋,通过一段文字,就能快速生成右边的图像,把左边文字里比较关键的元素或者因子都在图画里面生成出来。第二个是通过手绘或者鼠标随便涂鸦一个比较简陋的一棵小树。然后通过一段文字描述,希望把涂鸦生成一棵苍天大树,通过魔法把它生成右边非常有立体感,非常美的一颗苍天大树的图像。第三种场景是有自己的证件照或者自拍,加上各种动漫人物或者卡通人物的图像或者风格,把这两个图片结合,然后生成符合自己和以及卡通人物结合的人格重绘的图画,把自己变成的更加卡通化,或者更加艺术化。还会遇到一些场景,比如人物写真,证件照。现在没有空去照相馆拍证件照,能不能快速生成一个证件照,或者 AI 换脸,因为现在比较流行短视频或者各种有趣的小程序,都有把明星的脸换成自己脸,或者和儿子通过生成把脸互换达到很有趣的效果。还有背景替换,没有去过某个网红打卡地点,比如黄山一棵松,想让它做背景来生成一张照片。怎么样才能做到上面说的有趣的应用,介绍通义万相产品。


02、通义万相介绍

  image.png

通义万相是一个不断进化的人工智能的艺术创作型的大模型,它是一个 AI 大模型,站在产品的整个架构的维度观察。从底向上看,最底层大模型依赖阿里云基础和最稳定的 S 层的基础设施,包括存储、计算以及网络。第二层是基础的平台包括进行推理训练,也是基于阿里云的推理平台 PAI 来实现。第三层是各类丰富的数据接入以及数据标注以及 SOP 的处理流程,再往上是最核心的模型的能力层,这里面分为两部分,第一部分是文生图的基础大模型,是所有模型共用的基础。第二部分是可以针对各行业或者各领域,哪怕是自定义的模型,比如电商行业,营销行业,有这种行业型的模型,再往上一层是插件管理层,相对比较灵活,可以插拔式的把模型训练的插件,或者评测插件,以及其它一些推理相关插件融入进来,最上层是 SARS,通过标准的服务能力,像上层的应用,不管是电商的行业应用或者营销的行业应用提供整个模型的服务能力,这是整个万相的构成,从万相产品的构成可以分析,从基础层是依赖阿里云的 S 以及 PAI 的推理平台,具备稳定、合规以及高性能的特性。第二个,因为模型层比较灵活,除基础模型还能融入行业的领域大模型,所以它具备模型可扩散的灵活性。第三个是各种插件的灵活配置,基于这些最终能输出非常丰富的内容。包括通用的内容,或者某个行业特定的内容以及非常个性化的内容。

 

03、如何使用通义万相

image.png

介绍完通义万相后,如何使用,产品不可貌相,虽然整个比较复杂,但它使用起来非常简单,总结成两步是一键开通,简单集成,一键开通是通过阿里云开通 DashScope 产品服务。DashScope 是一个灵积的模型服务,可以简单理解为很多大模型提供服务的接入能力,就是对外统一提供服务,然后通过调用服务,背后会调用大模型进行算法生成以及结果返回。开通后需要创建一个 API-KEY,API-KEY 是访问服务的密钥,相当于进一个屋子需要一把钥匙,API-KEY 是负责整个服务访问密钥鉴权与计费,创建完后,API-KEY 非常重要,需要非常合理的保管 API-KEY。开通完之后进入第二层,如何集成和调用服务,基于 DashScope 的服务调用都基于 API,然后通过自己的应用代码以及对应的 API 相关的参数的集成,调用不同场景下的 API,快速的实现整个链路的串通,最后实现测试与使用,整个流程非常简单,在这个过程中有几个比较重要的点需要注意,第一个是,API-KEY 一个主账号下面就一套,主账号和子账号共享一套 API-KEY,所以 API-KEY 需要正确的保存与使用,不要轻易的造成泄露,最终会产生计费。第二个是不同的场景的 API,对 API 调用的入参以及原始图片的限制不同,可以具体参考通义万相上面 API 的具体文档,API 还会跟着产品的迭代和演进会不停的增加,会有更丰富的场景,可以时刻关注。第三个是 API-KEY 不能泄露,把 API-KEY 存在服务端,也就是云上的应用端,如果把 API-KEY 放在调用端可能会造成泄露,一旦造成泄露,就可能会拿着 API-KEY 来做模型的服务调用,会造成自损,所以一定要很好的保存 API-KEY , 如果发现 API-KEY 已经造成泄露,可能产生风险,可以通过 DashScope 灵积模型服务的控制台把原来的 API-KEY 进行删除,然后重新创建一个来做新的调用。

 

04、通义万相的优势

image.png

总结通义万相的五个优势。第一个,通义万相具备服务稳定性与应用性,官方承诺通义万相的服务可用性 SLA 不会低于 99%,并且能够支持高并发和大流量的场景。第二个,整个通义万相的使用和接入非常简单,可以兼容各种开发语言,最终都转化为 HTTP 接口的方式来进行 API 的调用。第三个是通义万相的功能非常多样化,除基础的文本转图像外,通义万相还支持图像绘画,人像风格化以及图像编辑等高级操作,而且功能在不断的扩充中,在不同的领域的创作提供广泛的灵活性以及创造性的空间。第四个,通义万相在整个行业里效果比较领先,不管从生成图像的一致性,或者AI绘画结果的布局性、自然性以及各种细节逼真效果上都相对领先。最后,通义万相是集成各种行业的大模型,在应用的场景上非常广泛,比如电商行业,或者广告营销行业,像教育培训机构行业,或者营销,只要需要图片生成或者大量图片处理的领域,都可以用到通义万相。

 

05、典型案例

5.1电商场景案例

image.png

下面以两个行业为例,简单举例通义万相在这个行业里面起到什么作用。一是电商行业,看到创意设计部分,就是客户的诉求,根据商品的设计原稿,能够快速的生成效果图来判断原稿是否具备时尚,或者设计美观的效果。原先整个过程都需要纯手绘完成,现在只需要通过设计一个初稿,然后通过通义万相生成右边的效果图,在这个过程中将原来三天的工作时间,缩短成一个小时。第二是拍摄场景的参考,比如有一个新的商品或产品,需要把它放在已经提前预设的不同拍摄场景或者背景中来展现它的效果,可以天然用这个效果,将不同商品以及背景图相结合,达到美观的展示效果。第三个是 AI 试衣,比如淘宝商家需要聘请一个模特,然后再将衣服请模特来穿到身上,再拍摄效果图,需要花费人力,物力以及大量的时间,那通过通义万相,可以通过模特以及新款的衣服图片的智能组合就能快速生成效果图,来达到刚刚消耗人力物力的步骤。有些商家在发布商品的时候,对商品简单拍摄,但需要在上架的时候具备美观的效果,可以通过商品加一段比较带有语义的文字描述,生成比较美观的商品照片。比如香水需要表现出它非常灵动的效果,最终可能生成这个效果图。在这个行业,通义万相能帮助用户达到降本增效,又能达到设计美观的效果。

5.2营销场景案例

image.png

第二个场景是营销场景,比如每日打卡的时候需要自己生成风格的重绘,或者重大活动的时候要生成海报,通过文生图生成类似的。

 

06、收费

image.png

可以参考这个收费标准,当开通灵积模型服务后,新账号刚开通的时候会提供 500 兆免费的额度,有效期是 180 天。过了有效期或者超过免费额度的时候,按图片的张数收费,每一个 API 的单价不一样。通义万相在不断的扩充 API 以及场景,可以通过通义万相的官网收费做一个参考。新的 API 出来的时候都会有公测和免费额度。

 

07、实操

image.png

下面实操部署一个通义万相的 Demo 应用,让大家有体感使用通义万相,生成自己喜欢或者感兴趣的图片,部署架构有三个组成部分。

第一个是云端会有一台按量付费的云服务器,ECS 来部署,会提供一个 Demo 的应用程序,可以一键部署到服务器里面来承载,相当于日常的服务端。第二个是对象存储 OSS,来存储和处理活动使用过程中需要上传的原始图片,或者最终通过大模型生成的效果图片,可以存储在对象存储里面。第三个是需要开通邻近的模型服务,开通之后通过它调用到最后的通义万相大模型。首先用户端,也就是浏览器端,在这个案例里面,通过提交的请求,可能是一段文字描述,也可能是一个原始图再加上一段文字描述将生成图片的请求发送到服务端,服务端会判断到底是文字生成图片,还是图片生成图片,需要哪个场景的 API,再判断是否将原始图片上传到 OSS,在这基础上通过应用程序代码调用灵积模型的服务能力,灵积接收到应用程序的调用的时候,判断如果是图片生成图片,会到 OSS 上把原始图片拉下来,如果是文字生成图片,就直接调用大模型的能力,最后将结果统一返回到用户端,用户端调用的时候不是同步返回结果,而是提交完后通过异步来获取任务结果,因为整个大模型在运算数据以及做模型处理的时候,需要一定时间,可能会花费几秒钟,有些的 API 可能会花费 10 秒到 15 秒或者 15 秒以上,因为整个模型有一个排队或者算力的过程。如果通过同步来等待服务端返回,有些浏览器或者 API 汇报超时,在比较合理的调用方式上,建议通过提交请求,然后异步获取结果的过程,如果想课后复习或者分享给小伙伴,可以到阿里云的官网,有个技术解决方案的频道,这个频道里面的 AI 模块的第一个就是通义万相的文本绘图,今天的课程的所有的相关内容除内容介绍与架构介绍之外,还可以快速的进入部署的操作界面完成部署。

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
21天前
|
人工智能 搜索推荐 Serverless
AI 剧本生成与动画创作方案评测
《AI剧本生成与动画创作》解决方案评测:该方案利用阿里云技术,实现从剧本撰写到视频合成的一站式自动化流程,部署文档指引准确,逻辑清晰。内容创作上显著简化流程、降低门槛,适合短视频创作者等用户,但部分术语较晦涩,特定风格的动画创作个性化不足。建议增加模板和教程,优化服务初始化流程,进一步提升用户体验。
59 15
|
29天前
|
人工智能 搜索推荐 Serverless
云端问道22期——AI智能语音实时互动
《云端问道22期——AI智能语音实时互动》分享了构建用户与AI智能语音实时互动的方法,涵盖七个部分:进入解决方案页、方案介绍、操作步骤、创建AI智能体、实时工作模版、部署应用及应用体验。通过阿里云平台,用户可以快速部署并体验AI语音通话功能,包括语音转文字、文字转语音、个性化定制智能体人设及接入私有知识库等。整个过程简单流畅,适合开发者和企业快速上手。
|
29天前
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
|
29天前
|
人工智能 运维 Serverless
云端问道8期方案教学-基于Serverless计算快速构建AI应用开发
本文介绍了基于Serverless计算快速构建AI应用开发的技术和实践。内容涵盖四个方面:1) Serverless技术价值,包括其发展趋势和优势;2) Serverless函数计算与AI的结合,探讨AIGC应用场景及企业面临的挑战;3) Serverless函数计算AIGC应用方案,提供一键部署、模型托管等功能;4) 业务初期如何低门槛使用,介绍新用户免费额度和优惠活动。通过这些内容,帮助企业和开发者更高效地利用Serverless架构进行AI应用开发。
|
30天前
|
存储 人工智能 OLAP
云端问道10期方案教学-百炼融合AnalyticDB,10分钟创建网站AI助手
本次分享由阿里云产品经理陈茏久介绍,主题为“百炼融合 AnalyticDB,10 分钟创建网站 AI 助手”。内容涵盖五个部分:大模型带来的行业变革、向量数据库驱动的 RAG 服务化探索、方案及优势与典型场景应用案例、产品选型配置介绍以及最新发布。重点探讨了大模型在各行业的应用,AnalyticDB 的独特优势及其在构建企业级知识库和增强检索服务中的作用。通过结合通义千问等产品,展示了如何在短时间内创建一个高效的网站 AI 助手,帮助企业快速实现智能化转型。
|
29天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
25天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
184 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
11天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
78 23
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
5天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
515 13
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
2天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
81 27

热门文章

最新文章