云端问道6期方案教学-创意加速器:AI 绘画创作

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 本文整理自绍懿老师在云端问道第6期关于“创意加速器:AI绘画创作”的分享,主要介绍阿里云通义万相大模型的应用。内容涵盖七大部分:有趣的应用场景、通义万相简介、使用方法、优势特点、典型案例(如电商和营销场景)、收费标准及实操部署。通过这些内容,用户可以快速了解如何利用通义万相实现文字生成图片、图像编辑等功能,并应用于实际业务中,提升效率与创造力。

创意加速器:AI 绘画创作

 

摘要:本文整理自绍懿老师在云端问道 6 期方案教学-创意加速器:AI 绘画创作的分享。内容主要为以下七部分:

1、一些有趣的应用

2、通义万相介绍

3、如何使用通义万相

4、通义万相的优势

5、典型案例

6、收费标准

7、实操

 

01、一些有趣的应用

image.png

本次主题是创业加速器,AI 绘画创作。比较通俗一点就是怎么利用阿里云的通义万相大模型产品在日常的 Web 应用或者服务中实现先进的图像生成,就是传统意义上文字生成图片或者图片生成图片。

日常生活中有没有遇到过一些有趣的应用,比如第一个是通过一段文字的描述,比如蜡笔画,森林里有一个可爱的蘑菇形状的房子,标题叫森林小屋,通过一段文字,就能快速生成右边的图像,把左边文字里比较关键的元素或者因子都在图画里面生成出来。第二个是通过手绘或者鼠标随便涂鸦一个比较简陋的一棵小树。然后通过一段文字描述,希望把涂鸦生成一棵苍天大树,通过魔法把它生成右边非常有立体感,非常美的一颗苍天大树的图像。第三种场景是有自己的证件照或者自拍,加上各种动漫人物或者卡通人物的图像或者风格,把这两个图片结合,然后生成符合自己和以及卡通人物结合的人格重绘的图画,把自己变成的更加卡通化,或者更加艺术化。还会遇到一些场景,比如人物写真,证件照。现在没有空去照相馆拍证件照,能不能快速生成一个证件照,或者 AI 换脸,因为现在比较流行短视频或者各种有趣的小程序,都有把明星的脸换成自己脸,或者和儿子通过生成把脸互换达到很有趣的效果。还有背景替换,没有去过某个网红打卡地点,比如黄山一棵松,想让它做背景来生成一张照片。怎么样才能做到上面说的有趣的应用,介绍通义万相产品。


02、通义万相介绍

  image.png

通义万相是一个不断进化的人工智能的艺术创作型的大模型,它是一个 AI 大模型,站在产品的整个架构的维度观察。从底向上看,最底层大模型依赖阿里云基础和最稳定的 S 层的基础设施,包括存储、计算以及网络。第二层是基础的平台包括进行推理训练,也是基于阿里云的推理平台 PAI 来实现。第三层是各类丰富的数据接入以及数据标注以及 SOP 的处理流程,再往上是最核心的模型的能力层,这里面分为两部分,第一部分是文生图的基础大模型,是所有模型共用的基础。第二部分是可以针对各行业或者各领域,哪怕是自定义的模型,比如电商行业,营销行业,有这种行业型的模型,再往上一层是插件管理层,相对比较灵活,可以插拔式的把模型训练的插件,或者评测插件,以及其它一些推理相关插件融入进来,最上层是 SARS,通过标准的服务能力,像上层的应用,不管是电商的行业应用或者营销的行业应用提供整个模型的服务能力,这是整个万相的构成,从万相产品的构成可以分析,从基础层是依赖阿里云的 S 以及 PAI 的推理平台,具备稳定、合规以及高性能的特性。第二个,因为模型层比较灵活,除基础模型还能融入行业的领域大模型,所以它具备模型可扩散的灵活性。第三个是各种插件的灵活配置,基于这些最终能输出非常丰富的内容。包括通用的内容,或者某个行业特定的内容以及非常个性化的内容。

 

03、如何使用通义万相

image.png

介绍完通义万相后,如何使用,产品不可貌相,虽然整个比较复杂,但它使用起来非常简单,总结成两步是一键开通,简单集成,一键开通是通过阿里云开通 DashScope 产品服务。DashScope 是一个灵积的模型服务,可以简单理解为很多大模型提供服务的接入能力,就是对外统一提供服务,然后通过调用服务,背后会调用大模型进行算法生成以及结果返回。开通后需要创建一个 API-KEY,API-KEY 是访问服务的密钥,相当于进一个屋子需要一把钥匙,API-KEY 是负责整个服务访问密钥鉴权与计费,创建完后,API-KEY 非常重要,需要非常合理的保管 API-KEY。开通完之后进入第二层,如何集成和调用服务,基于 DashScope 的服务调用都基于 API,然后通过自己的应用代码以及对应的 API 相关的参数的集成,调用不同场景下的 API,快速的实现整个链路的串通,最后实现测试与使用,整个流程非常简单,在这个过程中有几个比较重要的点需要注意,第一个是,API-KEY 一个主账号下面就一套,主账号和子账号共享一套 API-KEY,所以 API-KEY 需要正确的保存与使用,不要轻易的造成泄露,最终会产生计费。第二个是不同的场景的 API,对 API 调用的入参以及原始图片的限制不同,可以具体参考通义万相上面 API 的具体文档,API 还会跟着产品的迭代和演进会不停的增加,会有更丰富的场景,可以时刻关注。第三个是 API-KEY 不能泄露,把 API-KEY 存在服务端,也就是云上的应用端,如果把 API-KEY 放在调用端可能会造成泄露,一旦造成泄露,就可能会拿着 API-KEY 来做模型的服务调用,会造成自损,所以一定要很好的保存 API-KEY , 如果发现 API-KEY 已经造成泄露,可能产生风险,可以通过 DashScope 灵积模型服务的控制台把原来的 API-KEY 进行删除,然后重新创建一个来做新的调用。

 

04、通义万相的优势

image.png

总结通义万相的五个优势。第一个,通义万相具备服务稳定性与应用性,官方承诺通义万相的服务可用性 SLA 不会低于 99%,并且能够支持高并发和大流量的场景。第二个,整个通义万相的使用和接入非常简单,可以兼容各种开发语言,最终都转化为 HTTP 接口的方式来进行 API 的调用。第三个是通义万相的功能非常多样化,除基础的文本转图像外,通义万相还支持图像绘画,人像风格化以及图像编辑等高级操作,而且功能在不断的扩充中,在不同的领域的创作提供广泛的灵活性以及创造性的空间。第四个,通义万相在整个行业里效果比较领先,不管从生成图像的一致性,或者AI绘画结果的布局性、自然性以及各种细节逼真效果上都相对领先。最后,通义万相是集成各种行业的大模型,在应用的场景上非常广泛,比如电商行业,或者广告营销行业,像教育培训机构行业,或者营销,只要需要图片生成或者大量图片处理的领域,都可以用到通义万相。

 

05、典型案例

5.1电商场景案例

image.png

下面以两个行业为例,简单举例通义万相在这个行业里面起到什么作用。一是电商行业,看到创意设计部分,就是客户的诉求,根据商品的设计原稿,能够快速的生成效果图来判断原稿是否具备时尚,或者设计美观的效果。原先整个过程都需要纯手绘完成,现在只需要通过设计一个初稿,然后通过通义万相生成右边的效果图,在这个过程中将原来三天的工作时间,缩短成一个小时。第二是拍摄场景的参考,比如有一个新的商品或产品,需要把它放在已经提前预设的不同拍摄场景或者背景中来展现它的效果,可以天然用这个效果,将不同商品以及背景图相结合,达到美观的展示效果。第三个是 AI 试衣,比如淘宝商家需要聘请一个模特,然后再将衣服请模特来穿到身上,再拍摄效果图,需要花费人力,物力以及大量的时间,那通过通义万相,可以通过模特以及新款的衣服图片的智能组合就能快速生成效果图,来达到刚刚消耗人力物力的步骤。有些商家在发布商品的时候,对商品简单拍摄,但需要在上架的时候具备美观的效果,可以通过商品加一段比较带有语义的文字描述,生成比较美观的商品照片。比如香水需要表现出它非常灵动的效果,最终可能生成这个效果图。在这个行业,通义万相能帮助用户达到降本增效,又能达到设计美观的效果。

5.2营销场景案例

image.png

第二个场景是营销场景,比如每日打卡的时候需要自己生成风格的重绘,或者重大活动的时候要生成海报,通过文生图生成类似的。

 

06、收费

image.png

可以参考这个收费标准,当开通灵积模型服务后,新账号刚开通的时候会提供 500 兆免费的额度,有效期是 180 天。过了有效期或者超过免费额度的时候,按图片的张数收费,每一个 API 的单价不一样。通义万相在不断的扩充 API 以及场景,可以通过通义万相的官网收费做一个参考。新的 API 出来的时候都会有公测和免费额度。

 

07、实操

image.png

下面实操部署一个通义万相的 Demo 应用,让大家有体感使用通义万相,生成自己喜欢或者感兴趣的图片,部署架构有三个组成部分。

第一个是云端会有一台按量付费的云服务器,ECS 来部署,会提供一个 Demo 的应用程序,可以一键部署到服务器里面来承载,相当于日常的服务端。第二个是对象存储 OSS,来存储和处理活动使用过程中需要上传的原始图片,或者最终通过大模型生成的效果图片,可以存储在对象存储里面。第三个是需要开通邻近的模型服务,开通之后通过它调用到最后的通义万相大模型。首先用户端,也就是浏览器端,在这个案例里面,通过提交的请求,可能是一段文字描述,也可能是一个原始图再加上一段文字描述将生成图片的请求发送到服务端,服务端会判断到底是文字生成图片,还是图片生成图片,需要哪个场景的 API,再判断是否将原始图片上传到 OSS,在这基础上通过应用程序代码调用灵积模型的服务能力,灵积接收到应用程序的调用的时候,判断如果是图片生成图片,会到 OSS 上把原始图片拉下来,如果是文字生成图片,就直接调用大模型的能力,最后将结果统一返回到用户端,用户端调用的时候不是同步返回结果,而是提交完后通过异步来获取任务结果,因为整个大模型在运算数据以及做模型处理的时候,需要一定时间,可能会花费几秒钟,有些的 API 可能会花费 10 秒到 15 秒或者 15 秒以上,因为整个模型有一个排队或者算力的过程。如果通过同步来等待服务端返回,有些浏览器或者 API 汇报超时,在比较合理的调用方式上,建议通过提交请求,然后异步获取结果的过程,如果想课后复习或者分享给小伙伴,可以到阿里云的官网,有个技术解决方案的频道,这个频道里面的 AI 模块的第一个就是通义万相的文本绘图,今天的课程的所有的相关内容除内容介绍与架构介绍之外,还可以快速的进入部署的操作界面完成部署。

 

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
3月前
|
人工智能 前端开发 Docker
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
在 AI 智能体开发中,开发者常面临本地调试与云端部署的矛盾。本文介绍如何通过 Docker Compose 与 Docker Offload 解决这一难题,实现从本地快速迭代到云端高效扩容的全流程。内容涵盖多服务协同、容器化配置、GPU 支持及实战案例,助你构建高效、一致的 AI 智能体开发环境。
337 2
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
|
2月前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
622 9
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当医生“上云端”:AI让远程医疗诊断更懂人心
当医生“上云端”:AI让远程医疗诊断更懂人心
248 8
|
3月前
|
SQL 人工智能 Linux
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
363 5
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
|
2月前
|
人工智能 搜索推荐 Cloud Native
拔俗AI助教系统:教师的"超级教学秘书",让每堂课都精准高效
备课到深夜、批改作业如山?阿里云原生AI助教系统,化身“超级教学秘书”,智能备课、实时学情分析、自动批改、精准辅导,为教师减负增效。让课堂从经验驱动转向数据驱动,每位学生都被看见,教育更有温度。
|
2月前
|
存储 人工智能 搜索推荐
拔俗AI大模型教学平台:开启智能教育新时代
在AI与教育深度融合背景下,本文基于阿里云技术构建大模型教学平台,破解个性化不足、反馈滞后等难题。通过“大模型+知识图谱+场景应用”三层架构,实现智能答疑、精准学情分析与个性化学习路径推荐,助力教学质量与效率双提升,推动教育智能化升级。
|
2月前
|
传感器 人工智能 搜索推荐
智慧AI群体化体格检查教学系统:破解体检教学“僧多粥少”难题
智慧AI体格检查教学系统,破解传统体检教学难题。支持20+学生同步实操指导,AI实时纠错、虚拟病例丰富、流程智能导航,提升教学效率与规范性,助力医教数字化升级。(238字)
|
4月前
|
数据采集 存储 人工智能
基于 EventBridge 构筑 AI 领域高效数据集成方案
本文深入探讨了AI时代数据处理的变革与挑战,分析了事件驱动架构(EventBridge)在AI数据处理中的技术优势,并结合实践案例,展示了其在多源数据接入、向量数据库优化、智能数据转换等方面的应用价值。
580 30
|
3月前
|
人工智能 编解码 数据可视化
原生支持QwenImage!FlowBench 正式开启公测!本地 + 云端双模生图,AI创作更自由
FlowBench 是由 ModelScope x Muse 团队打造的一站式 AI 工作流创作平台,现已开启全面公测。该平台以工作流为核心,支持本地与云端资源协同运行,面向开发者、设计师及 AI 创作者提供高效、稳定、易用的可视化创作体验。FlowBench 原生支持 QwenImage 图像生成模型,最低仅需 8GB 显存即可实现本地生图,并支持多 LoRA 融合、多图批量生成等强大功能。用户可在 Mac 和 Windows 系统下载使用,同时享受云端与本地自由切换带来的灵活体验。公测期间,FlowBench 团队将持续优化功能,推出更多创新特性,助力用户开启高效 AI 创作之旅。
672 11
|
4月前
|
机器学习/深度学习 人工智能 程序员
每个慢节奏创业者都需要知道的AI加速器
你还在为创业速度慢而焦虑吗?AI时代来了!本文将通过一个虚拟咖啡店老板的故事,教你如何用AI工具把创业速度提升10倍,从想法到产品上线只需要几天而不是几个月。
167 10

热门文章

最新文章