云端问道6期方案教学-创意加速器:AI 绘画创作

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 本文整理自绍懿老师在云端问道第6期关于“创意加速器:AI绘画创作”的分享,主要介绍阿里云通义万相大模型的应用。内容涵盖七大部分:有趣的应用场景、通义万相简介、使用方法、优势特点、典型案例(如电商和营销场景)、收费标准及实操部署。通过这些内容,用户可以快速了解如何利用通义万相实现文字生成图片、图像编辑等功能,并应用于实际业务中,提升效率与创造力。

创意加速器:AI 绘画创作

 

摘要:本文整理自绍懿老师在云端问道 6 期方案教学-创意加速器:AI 绘画创作的分享。内容主要为以下七部分:

1、一些有趣的应用

2、通义万相介绍

3、如何使用通义万相

4、通义万相的优势

5、典型案例

6、收费标准

7、实操

 

01、一些有趣的应用

image.png

本次主题是创业加速器,AI 绘画创作。比较通俗一点就是怎么利用阿里云的通义万相大模型产品在日常的 Web 应用或者服务中实现先进的图像生成,就是传统意义上文字生成图片或者图片生成图片。

日常生活中有没有遇到过一些有趣的应用,比如第一个是通过一段文字的描述,比如蜡笔画,森林里有一个可爱的蘑菇形状的房子,标题叫森林小屋,通过一段文字,就能快速生成右边的图像,把左边文字里比较关键的元素或者因子都在图画里面生成出来。第二个是通过手绘或者鼠标随便涂鸦一个比较简陋的一棵小树。然后通过一段文字描述,希望把涂鸦生成一棵苍天大树,通过魔法把它生成右边非常有立体感,非常美的一颗苍天大树的图像。第三种场景是有自己的证件照或者自拍,加上各种动漫人物或者卡通人物的图像或者风格,把这两个图片结合,然后生成符合自己和以及卡通人物结合的人格重绘的图画,把自己变成的更加卡通化,或者更加艺术化。还会遇到一些场景,比如人物写真,证件照。现在没有空去照相馆拍证件照,能不能快速生成一个证件照,或者 AI 换脸,因为现在比较流行短视频或者各种有趣的小程序,都有把明星的脸换成自己脸,或者和儿子通过生成把脸互换达到很有趣的效果。还有背景替换,没有去过某个网红打卡地点,比如黄山一棵松,想让它做背景来生成一张照片。怎么样才能做到上面说的有趣的应用,介绍通义万相产品。


02、通义万相介绍

  image.png

通义万相是一个不断进化的人工智能的艺术创作型的大模型,它是一个 AI 大模型,站在产品的整个架构的维度观察。从底向上看,最底层大模型依赖阿里云基础和最稳定的 S 层的基础设施,包括存储、计算以及网络。第二层是基础的平台包括进行推理训练,也是基于阿里云的推理平台 PAI 来实现。第三层是各类丰富的数据接入以及数据标注以及 SOP 的处理流程,再往上是最核心的模型的能力层,这里面分为两部分,第一部分是文生图的基础大模型,是所有模型共用的基础。第二部分是可以针对各行业或者各领域,哪怕是自定义的模型,比如电商行业,营销行业,有这种行业型的模型,再往上一层是插件管理层,相对比较灵活,可以插拔式的把模型训练的插件,或者评测插件,以及其它一些推理相关插件融入进来,最上层是 SARS,通过标准的服务能力,像上层的应用,不管是电商的行业应用或者营销的行业应用提供整个模型的服务能力,这是整个万相的构成,从万相产品的构成可以分析,从基础层是依赖阿里云的 S 以及 PAI 的推理平台,具备稳定、合规以及高性能的特性。第二个,因为模型层比较灵活,除基础模型还能融入行业的领域大模型,所以它具备模型可扩散的灵活性。第三个是各种插件的灵活配置,基于这些最终能输出非常丰富的内容。包括通用的内容,或者某个行业特定的内容以及非常个性化的内容。

 

03、如何使用通义万相

image.png

介绍完通义万相后,如何使用,产品不可貌相,虽然整个比较复杂,但它使用起来非常简单,总结成两步是一键开通,简单集成,一键开通是通过阿里云开通 DashScope 产品服务。DashScope 是一个灵积的模型服务,可以简单理解为很多大模型提供服务的接入能力,就是对外统一提供服务,然后通过调用服务,背后会调用大模型进行算法生成以及结果返回。开通后需要创建一个 API-KEY,API-KEY 是访问服务的密钥,相当于进一个屋子需要一把钥匙,API-KEY 是负责整个服务访问密钥鉴权与计费,创建完后,API-KEY 非常重要,需要非常合理的保管 API-KEY。开通完之后进入第二层,如何集成和调用服务,基于 DashScope 的服务调用都基于 API,然后通过自己的应用代码以及对应的 API 相关的参数的集成,调用不同场景下的 API,快速的实现整个链路的串通,最后实现测试与使用,整个流程非常简单,在这个过程中有几个比较重要的点需要注意,第一个是,API-KEY 一个主账号下面就一套,主账号和子账号共享一套 API-KEY,所以 API-KEY 需要正确的保存与使用,不要轻易的造成泄露,最终会产生计费。第二个是不同的场景的 API,对 API 调用的入参以及原始图片的限制不同,可以具体参考通义万相上面 API 的具体文档,API 还会跟着产品的迭代和演进会不停的增加,会有更丰富的场景,可以时刻关注。第三个是 API-KEY 不能泄露,把 API-KEY 存在服务端,也就是云上的应用端,如果把 API-KEY 放在调用端可能会造成泄露,一旦造成泄露,就可能会拿着 API-KEY 来做模型的服务调用,会造成自损,所以一定要很好的保存 API-KEY , 如果发现 API-KEY 已经造成泄露,可能产生风险,可以通过 DashScope 灵积模型服务的控制台把原来的 API-KEY 进行删除,然后重新创建一个来做新的调用。

 

04、通义万相的优势

image.png

总结通义万相的五个优势。第一个,通义万相具备服务稳定性与应用性,官方承诺通义万相的服务可用性 SLA 不会低于 99%,并且能够支持高并发和大流量的场景。第二个,整个通义万相的使用和接入非常简单,可以兼容各种开发语言,最终都转化为 HTTP 接口的方式来进行 API 的调用。第三个是通义万相的功能非常多样化,除基础的文本转图像外,通义万相还支持图像绘画,人像风格化以及图像编辑等高级操作,而且功能在不断的扩充中,在不同的领域的创作提供广泛的灵活性以及创造性的空间。第四个,通义万相在整个行业里效果比较领先,不管从生成图像的一致性,或者AI绘画结果的布局性、自然性以及各种细节逼真效果上都相对领先。最后,通义万相是集成各种行业的大模型,在应用的场景上非常广泛,比如电商行业,或者广告营销行业,像教育培训机构行业,或者营销,只要需要图片生成或者大量图片处理的领域,都可以用到通义万相。

 

05、典型案例

5.1电商场景案例

image.png

下面以两个行业为例,简单举例通义万相在这个行业里面起到什么作用。一是电商行业,看到创意设计部分,就是客户的诉求,根据商品的设计原稿,能够快速的生成效果图来判断原稿是否具备时尚,或者设计美观的效果。原先整个过程都需要纯手绘完成,现在只需要通过设计一个初稿,然后通过通义万相生成右边的效果图,在这个过程中将原来三天的工作时间,缩短成一个小时。第二是拍摄场景的参考,比如有一个新的商品或产品,需要把它放在已经提前预设的不同拍摄场景或者背景中来展现它的效果,可以天然用这个效果,将不同商品以及背景图相结合,达到美观的展示效果。第三个是 AI 试衣,比如淘宝商家需要聘请一个模特,然后再将衣服请模特来穿到身上,再拍摄效果图,需要花费人力,物力以及大量的时间,那通过通义万相,可以通过模特以及新款的衣服图片的智能组合就能快速生成效果图,来达到刚刚消耗人力物力的步骤。有些商家在发布商品的时候,对商品简单拍摄,但需要在上架的时候具备美观的效果,可以通过商品加一段比较带有语义的文字描述,生成比较美观的商品照片。比如香水需要表现出它非常灵动的效果,最终可能生成这个效果图。在这个行业,通义万相能帮助用户达到降本增效,又能达到设计美观的效果。

5.2营销场景案例

image.png

第二个场景是营销场景,比如每日打卡的时候需要自己生成风格的重绘,或者重大活动的时候要生成海报,通过文生图生成类似的。

 

06、收费

image.png

可以参考这个收费标准,当开通灵积模型服务后,新账号刚开通的时候会提供 500 兆免费的额度,有效期是 180 天。过了有效期或者超过免费额度的时候,按图片的张数收费,每一个 API 的单价不一样。通义万相在不断的扩充 API 以及场景,可以通过通义万相的官网收费做一个参考。新的 API 出来的时候都会有公测和免费额度。

 

07、实操

image.png

下面实操部署一个通义万相的 Demo 应用,让大家有体感使用通义万相,生成自己喜欢或者感兴趣的图片,部署架构有三个组成部分。

第一个是云端会有一台按量付费的云服务器,ECS 来部署,会提供一个 Demo 的应用程序,可以一键部署到服务器里面来承载,相当于日常的服务端。第二个是对象存储 OSS,来存储和处理活动使用过程中需要上传的原始图片,或者最终通过大模型生成的效果图片,可以存储在对象存储里面。第三个是需要开通邻近的模型服务,开通之后通过它调用到最后的通义万相大模型。首先用户端,也就是浏览器端,在这个案例里面,通过提交的请求,可能是一段文字描述,也可能是一个原始图再加上一段文字描述将生成图片的请求发送到服务端,服务端会判断到底是文字生成图片,还是图片生成图片,需要哪个场景的 API,再判断是否将原始图片上传到 OSS,在这基础上通过应用程序代码调用灵积模型的服务能力,灵积接收到应用程序的调用的时候,判断如果是图片生成图片,会到 OSS 上把原始图片拉下来,如果是文字生成图片,就直接调用大模型的能力,最后将结果统一返回到用户端,用户端调用的时候不是同步返回结果,而是提交完后通过异步来获取任务结果,因为整个大模型在运算数据以及做模型处理的时候,需要一定时间,可能会花费几秒钟,有些的 API 可能会花费 10 秒到 15 秒或者 15 秒以上,因为整个模型有一个排队或者算力的过程。如果通过同步来等待服务端返回,有些浏览器或者 API 汇报超时,在比较合理的调用方式上,建议通过提交请求,然后异步获取结果的过程,如果想课后复习或者分享给小伙伴,可以到阿里云的官网,有个技术解决方案的频道,这个频道里面的 AI 模块的第一个就是通义万相的文本绘图,今天的课程的所有的相关内容除内容介绍与架构介绍之外,还可以快速的进入部署的操作界面完成部署。

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
打赏
0
1
1
0
1031
分享
相关文章
从 DeepSeek 到 AI 工具箱:Websoft9 应用托管平台赋能高校教学与科研
Websoft9应用托管平台整合DeepSeek大模型与主流AI工具,助力高校教学与科研智能化转型。平台解决环境部署碎片化、资源利用低效及技术应用孤岛化等挑战,通过智能内核层、工具矩阵层和资源调度层实现高效技术融合。实际案例显示,平台显著提升教学精准度与科研协作效率,同时遵循开放兼容、安全可控等原则,推动认知增强型课堂与虚实联动实验空间的构建,为高等教育带来可持续发展的智能化基座。
62 1
小白避坑指南:国内用Colossal-AI微调DeepSeek 1.5B的完整踩坑记录(附镜像加速方案)
本文详细记录了使用Colossal-Ai对DeepSeek-Qwen模型进行微调的过程,包括模型下载、环境部署、数据集处理及代码实现等环节。重点介绍了LoRA低秩适配方法和Colossal-Ai分布式训练框架的使用技巧,解决了模型封装后函数调用冲突、梯度检查点配置等问题。通过命令行参数灵活调整训练配置,最终在两块A100 GPU上完成训练,单卡显存占用约11GB,利用率达85%。文章总结了常见问题及解决方法,为后续研究提供参考。
141 15
小白避坑指南:国内用Colossal-AI微调DeepSeek 1.5B的完整踩坑记录(附镜像加速方案)
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。
265 3
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
本文分享了两种构建高质量AI代码数据集的解决方案。第一种是传统方式,结合动态住宅代理与手动处理,通过分页读取和数据清洗生成结构化数据;第二种是利用Web Scraper API工具,实现自定义配置、自动化抓取及云端存储。两种方法各具优势,适合不同需求和技术水平的团队。同时,文章还提供了专属优惠福利,助力提升数据采集效率,为AI大模型训练提供支持。
63 5
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
工会成立100周年纪念,开发职工健身AI运动小程序、APP方案推荐
为庆祝中华全国总工会成立100周年,特推出基于AI技术的智能健身系统,以小程序和APP形式呈现,助力职工健康生活。方案包括:1) 小程序插件,支持多种运动识别,开箱即用;2) APP插件,提供更高精度的运动检测;3) 成熟的「AI乐运动」系统,支持赛事活动管理。这些方案满足不同需求,推动全民健身体验升级,彰显工会对职工健康的关怀。
【一步步开发AI运动APP】二、跨平台APP AI运动识别方案介绍
本系列博文旨在帮助开发者从【AI运动小程序】迈向性能更优的【AI运动APP】开发。通过「云智AI运动识别」uni-app版插件,提供本地原生极速识别、精准姿态检测及运动计时计数功能,支持健身系统、线上赛事、学生体测、康复锻炼等多场景应用。插件无需云端依赖,一次付费永久使用,成本低且扩展性强。同时兼容uni-app与uni-app x框架,适合不同技术背景的开发者快速上手,助力抢占AI辅助运动市场。下篇将介绍插件引入,敬请期待!
Deepseek 本地部署“网页版”与“软件版”超级详细教学(deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio)
近期,人工智能领域迎来了一股新的热潮,DeepSeek作为一款备受瞩目的开源语言模型,凭借其卓越的性能和广泛的应用场景,迅速在全球范围内引起了广泛关注。从技术社区到商业领域,DeepSeek的热度不断攀升,甚至有“挤爆”的趋势。这不仅反映了其强大的技术实力,也体现了市场和用户对其的高度期待。 在这样的背景下,本地部署DeepSeek模型的需求也日益增加。本地部署不仅可以避免网络延迟和数据隐私问题,还能根据用户需求进行定制化优化。结合deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio AI等工具,用户可以轻松实现模型的本地化部署,并通过可视化面板
529 8
Deepseek 本地部署“网页版”与“软件版”超级详细教学(deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio)
TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画
TheoremExplainAgent 是一个由滑铁卢大学和 Votee AI 等机构开发的多模态代理系统,能够将数学和科学定理自动转化为长篇动画视频,帮助用户更好地理解复杂概念。该系统支持多学科、多模态解释,并通过自动错误诊断和系统化评估提升生成内容的质量。
141 9
一场静默的教育革命正在发生:AI如何重塑学习与教学
生成式人工智能(Generative AI)正深刻改变教育领域,从学生到职场人士,AI逐渐成为必备技能。文章探讨了AI在教育中的应用与挑战,如认知卸载现象及批判性思维能力下降,并提出通过GAI认证提升AI技能的标准化途径。未来教育将形成“师、机、生”三元结构,强调人与AI协作共进。掌握AI技术不仅是职业发展的关键,更是教育革命中的核心推动力。
AI大模型安全风险和应对方案
AI大模型面临核心安全问题,包括模型内在风险(如欺骗性对齐、不可解释性和模型幻觉)、外部攻击面扩大(如API漏洞、数据泄露和对抗性攻击)及生成内容滥用(如深度伪造和虚假信息)。应对方案涵盖技术防御与优化、全生命周期管理、治理与行业协同及用户教育。未来需关注动态风险适应、跨领域协同和量子安全预研,构建“技术+管理+法律”三位一体的防护体系,推动AI安全发展。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等