来自通义万相的创意加速器:AI 绘画创作

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 【7月更文挑战第11天】来自通义万相的创意加速器:AI 绘画创作

来自通义万相的创意加速器:AI 绘画创作

可以说,2024年是AI人工智能大火的时代,那么基于AI我们可以做哪些事呢?过去的和AI智能的聊天对话,以及现在的基于AI的文生图、文生音频、文生视频,其实AI人工智能的发展,可以说已经极大的丰富了我们的日常生活和工作。现在目之所及,在各行各业都可以看到AI的身影,比如你可以利用AI生成工作年报,或者数据分析,为决策提供依据等等。那么今天我们主要是来感受一下AI在绘画创作行业的重要作用。

在开始今天的主题操作之前,先来了解一下什么是通义万相?

通义万相

说起通义万相,大家其实也算比较熟悉了,最常用的就是文生图,我是从通义万相出来就一直在时不时的用,通义万相地址:https://tongyi.aliyun.com/wanxiang  通义万相的界面是这样的

image.png

这里我们注意到右上角有个【灵感值】,这个灵感值就是你每天可以免费使用通义万相的次数,过去是每天自动刷新50灵感值,现在规则改为了每天手动签到,发放50灵感值,可以累计。点击【创意作画】就可以跳转到文生图页面,输入Prompt: 阳光 帅气 小男孩 头像 ,默认风格,点击【生成创意画作】就可以从生成的四幅图中选择一副自己满意的了,操作很简单

image.png

那么今天我们需要做的就是【利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成】,简单的说就是我们自己搭建一个类似于通义万相的文生图平台,并用自己搭建的通义万相体验生成图像。好了,简单的回忆到这里结束。下面开始精彩部分登场。

动手搭建“通义万相”

在开始动手搭建自己的“通义万相”之前,先来简单介绍一下我们的搭建方案:【ECS云服务器用于运行Web程序,以接收用户的图像处理请求;对象存储OSS则用于存储某些场景中用户上传的图片,并通过签名的方式使得通义万相可以下载该图片,模型服务通过提供基于HTTP接口的API,实现应用程序的调用。】整体方案规划图如下

image.png

方案部署操作文档地址:https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang

部署方案

在方案部署文档中,我们选择【一键部署】方案来快速体验利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成应用部署体验,下拉文档找到

image.png

点击【一键部署】进入到操作文档步骤页面,基于上面的方案介绍,我们需要以下基础设施和云服务:

  • 1个专有网络VPC:云服务器ECS创建于此VPC下。
  • 1台交换机:云服务器ECS创建于此交换机下。
  • 1台云服务器ECS:用于部署示例应用程序。
  • 1个对象存储OSS Bucket:用户存储用户上传的图片,并生成签名的URL提供给大模型进行下载。建议使用和ECS同地域下的OSS Bucket。
  • DashScope灵积模型服务:用于示例应用程序调用通义万相的服务。

资源准备

基于上面我们整理的需要用到的基础设施和云服务,那么我们先来准备一个杭州地域的对象存储OSS。

对象存储OSS(手动部署)

登录OSS控制台:https://oss.console.aliyun.com/overview  在【杭州】地域下创建OSS Bucket,点击【Bucket列表】

image.png

点击【创建Bucket】,输入Bucket名称,选择【杭州】地域,其他默认选择,

image.png

点击【完成创建】-【我知道了,确认创建】完成OSS Bucket创建。

image.png

创建成功如图

image.png

DashScope 模型服务灵积

登录DashScope 模型服务灵积 控制台:https://dashscope.console.aliyun.com/overview 如果你还没有开通服务,你需要先开通服务

在首页模型服务灵积总览页面我们可以看到历史使用过的模型

image.png

开通服务之后点击【管理中心】-【API-KEY管理】

image.png

点击【创建新的API-KEY】,在弹框页面点击【复制】并保存生成的 API-KEY

image.png

云服务器ECS(手动部署)

创建云服务器ECS,需要先登录云服务器控制台:https://ecs.console.aliyun.com/home

image.png

点击【创建我的ECS】跳转到ECS创建页面,选择【按量付费】选择地域和OSS同地域【杭州】地域

image.png

这里如果没有专有网络、交换机 可供选择的话,可以直接点击【创建专有网络】、【创建交换机】去创建 VPC 和 Switch,操作比较简单,这里不再详细赘述,下面继续选择ECS 实例规格,这里选择实例规格【ecs.e-c1m2.large】

image.png

镜像选择 公共镜像【CentOS 7.6 64位】

image.png

系统盘默认 40GiB,安全组选择【新建安全组】勾选 80 端口

image.png

管理设置服务器密码选择【自定义密码】

image.png

高级设置更改实例名称为【wanxiang-2024】

image.png

最后勾选服务,点击【确认下单】完成云服务器ECS的创建

image.png



一键部署ROS

单击一键部署前往ROS控制台,输入应用登录用户名、密码

image.png

输入刚才创建 的 API-KEY ,默认 OSS 存储空间名称

image.png

选择实例规格类型【ecs.g7.large】输入实例密码

image.png

勾选后,点击【下一步】

image.png

进入到资源编排管理详情页,确认选择信息,以及价格信息

image.png

image.png

这里需要注意的是需要保证你的账户余额大于 100 元,否则点击【创建】会提示你充值。点击【创建】等待资源栈创建成功,整个过程大概3~5分钟

image.png

等待创建资源栈成功后,选择 tab 输出,点击体验地址

image.png

输入刚才创建时应用的用户名以及密码  demo-user  

image.png

点击【登录】成功跳转到服务页面

image.png

Web文生图

基于上面的一键部署操作,完成通义万相AIGC技术在Web服务中实现,现在我们可以在Web服务页面体验通义万相的几大应用场景了

艺术与设计创作

说到艺术与设计创作,最先想到的就是敦煌飞天图,这里我输入提示词 Prompt:【生成一副敦煌飞天图

image.png

生成效果如图


整体上看起来不管是从意境,还是从色彩搭配上,都有敦煌壁画中敦煌飞天的韵味在里面,真心不错。

广告与营销物料生成

说到广告的话,这里首先想到的就是为自己经常和的伊利牛奶生成一副广告营销图,那么我的关键词 Prompt:【生成一副伊利牛奶的宣传图】,同样是等待15~30秒后,生成效果如图,


整体上的色调搭配以及主体突出都是没有问题的,这里就是少了一点广告的主体在里面,没有地方可以突出给到 品牌名或者是品牌Logo,有点小缺憾。

教育与培训资源制作

提到教育与培训,那么首先想到的就是学生努力学习奋斗的模样,这里我的关键词 Prompt:【生成一副学生努力学习的图片】,生成效果如图

整张图对于学生努力学习的氛围以及书本的多都表现的很细腻,整体上很不错,同时也突出了学习必须要努力才有收获,不错。


游戏与娱乐内容开发

提到游戏与娱乐的话,个人首先想到的是英雄联盟的游戏,于是我就通过通义万相生成一副英雄联盟的宣传图,关键词 Prompt:【生成一副英雄联盟的游戏界面图】生成效果如图

这幅图从游戏角度来欣赏确实是有游戏的那种感觉的,并且这个意境也符合英雄联盟游戏的整体风格意境,也很不错。


时尚与服装设计

那么提到时尚服装设计,那么我首先想到的是生成一副时尚时装的模特图来看一下效果,关键词 Prompt:【生成一副时尚时装的模特图】生成效果如图


这幅服装设计图从整体上来看以及模特上身后的感觉上来看都不失为一个不错的设计,确实很时尚很Fashion。

资源释放

登录一键部署 ROS 控制台:https://ros.console.aliyun.com/cn-hangzhou/stacks 点击列表【删除】释放资源

image.png

在弹窗页面选择【释放资源】点击【确定】

image.png

输入短信验证码,完成ROS资源释放

image.png

体验感受

1)资源部署及场景API调用体验过程是否得到足够的引导,操作是否顺畅?

在本次利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成的部署操作中,整个部署文档写的是足够的详细,大部分内容都是通过一键部署的资源栈ROS完成了,操作者只需要获取DashScope API-KEY 就可以了,操作过程简单且易操作,流程顺畅,部署指引够完善,赞一个。

2)该方案是否满足您的需求?

本次利用自研的通义万相AIGC技术在Web服务实现图像生成的方案目前足够满足个人的需求,只是在有一些场景中生成的图片可能并不完善,比如在【广告与营销物料生成】场景下,生成的关于伊利牛奶的营销图实际是有点缺憾的,作为广告营销图,但是却没有标明具体的品牌方或者是品牌方Logo,这个不能算生成的图片满足需求。而对于其他几个场景的图像生成效果还都是不错的。另外结合通义万相目前公开免费试用的能力场景来看,本次部署的通义万相风格上并不是很丰富,只有目前较为常用的风格,而通义万相的风格就比较丰富

image.png

3)该方案还有哪些可以改进的图片生成能力?

其实对于通义万相来说,目前最有改进空间的就是上下文的结合能力,目前的图像生成,总是基于一次的 Prompt来生成图片,而不能基于一次的 Prompt后续不断地丰富或者修正图像生成方案,从而最终完善图片到自己想要的效果,也就是没有类似 语境上下文这样的功能。希望后期可以往这方面改进,毕竟目前的文生图行业,关键词技术还不算完善,真正掌握这项技术的人只有少数,大多数人还是只能通过一次又一次的尝试来完善图片生成效果。而目前的通义万相或者说本次部署的利用自研的通义万相AIGC技术在Web服务,本身并没有上下文的概念,因此这也可能成为AIGC图像生成发展的阻力。


4)该方案该在成本、易用性、应用场景上是否有竞争力?

本次利用自研的通义万相AIGC技术在Web服务的部署操作过程,整个是很流畅简单的,那么这样就可以大大降低学习带来的成本。在成本上正如上面截图中看到的一样,整个过程的花费也就是云服务器ECS 的按小时计费,以及对象存储 OSS 按使用量计费的成本


综合下来算是很低的成本了。另外易用性上也比较简单,页面操作很明朗,可以自行选择图片规格、图片数量、图片风格等参数。



在应用场景上,结合上面提到的五大场景的测试,对于文生图还有更多的场景,比如编辑行业等,应用场景还是很有前景的。另外,产品的竞争力除了要提供好的产品外,还需要在成本上有优势,那么对于本次利用自研的通义万相AIGC技术在Web服务的部署上,成本以及产品的优势都很明显,性价比高,足够有竞争力,后续团队如果有这方面需要的话,还是很乐意推荐的。

5)在场景中使用到具体云产品的体验

在本次利用自研的通义万相AIGC技术在Web服务的部署上,主要用到的云产品包括云服务器ECS、对象存储OSS、DashScope灵积模型服务、资源编排ROS,那么对于这几款产品,个人实际在部署中总是或多或少的用到过,因此对于这几项云产品的配置基本不用看文档就可以,另一方面也说明了产品的操作配置比较便捷易记忆,基本上操作一两次就可以完全掌握。同时,在产品的功能上和性能上也是没的说,对于云服务器ECS可以升降配,操作起来也很方便,产品手册的话每一款云产品都有单独的产品手册,可以在控制台直接找到

image.png

包括一些场景的操作指引等也都是很详尽

image.png

总的来说对于阿里云产品的文档,个人是没有什么意见,云产品的文档写的总是足够的丰富到小白上手无压力。

写在最后

本次实验整体操作比较流畅,耗时30分钟以内,加上文章记录的时间,本次部署整体耗时2小时30分钟左右,整体体验很好,部署文档也很详细,内容丰富,赞一个。手动部署感兴趣的也可以尝试,个人还是觉得一键部署更符合现在快节奏的工作环境,手动部署命令行多,且需要准备资源较多,整体部署耗时也会相应增加,因此更推荐一键部署操作。



相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
3
8
1
1649
分享
相关文章
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
298 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
通义大模型:解码中国AI的"通"与"义"
“通义”取自中国传统文化中“通晓大义”,寓意技术与人文的结合。作为阿里巴巴旗下的超大规模语言模型,通义在知识蒸馏、动态稀疏激活和文化感知模块上实现三大突破,大幅提升效率与适切性。其已在医疗、司法、文化传播等领域落地,如辅助病历处理、法律文书生成及文物解说等。测试显示,通义在中文诗歌创作、商业报告生成等方面表现优异。同时,开放的开发者生态已吸引5万+创新者。未来,通义将探索长期记忆、自我反思及多智能体协作,向AGI迈进,成为智能本质的载体。其对中文语境情感的精准把握,更是中国AI“通情达义”的典范。
249 22
通义大模型:中国AI领域的新里程碑
本文介绍了阿里巴巴达摩院研发的“通义大模型”系列,该模型在2025年已成为AI领域的重要里程碑。通义大模型拥有超大规模参数、多模态融合、高效训练框架和中文优化等技术特点,在智能客服、内容创作、教育和企业服务等多个场景实现应用。未来,它将在多模态能力、小样本学习、安全性及应用场景拓展等方面持续突破,推动中国AI技术进步与行业智能化转型。
356 18
通义灵码 vs. GitHub Copilot:中国AI编码工具的破局之道
全球AI编码工具形成“双极格局”,GitHub Copilot凭借先发优势主导市场,而通义灵码通过差异化路径突围。技术层面,通义灵码在中文语境理解、云原生绑定上展现优势;生态方面,Copilot依托GitHub开源生态,通义灵码则深耕阿里云企业协同场景;开发者心智战中,通义灵码以数据合规、本土化服务及定制化能力取胜。这场较量不仅是技术的比拼,更是生态逻辑与开发者需求的全面博弈,彰显中国AI编码工具“换道超车”的潜力。
205 19
通义灵码:AI重构编码范式,开发者如何迎接“人机共生”时代?
本文探讨了以通义灵码为代表的AI编码助手如何推动软件开发从“人驱动工具”向“人机协同创造”演进。文章分析了其技术突破,如意图理解、上下文感知和可解释性,并讨论了开发者价值链条的重构,包括需求抽象、架构设计与代码审查能力的提升。同时,文章展望了行业变革对开发者身份、云生态竞争及技术伦理的影响,强调在AI驱动的“寒武纪大爆发”前夜,唯有持续进化才能适应未来软件工程的“人机共生”文明。
112 16
通义灵码:当AI成为你的编程搭档,效率革命已经到来
本文介绍了通义灵码作为AI编程伙伴的革命性意义及其技术特点。基于阿里云通义代码大模型CodeQwen1.5,它具备多模态代码理解、意图推理和跨语言知识融合能力,可重构开发者工作流,从智能编码到Debug预警再到文档自动化全面提升效率。数据显示,其能将常规开发时间缩短60%,错误率下降43%,新技术上手速度提升2倍。未来,通义灵码将推动需求-代码双向翻译、架构自演进等全新编程形态,助力开发者聚焦更高价值领域,开启人机共生的编程新时代。
93 10
通义灵码:以AI重塑开发者生产力,解锁智能编程新范式
通义灵码是阿里云推出的一款AI智能编程助手,基于通义大模型打造,深度集成于主流IDE。它不仅提供全场景智能代码生成、对话式开发体验和工程化智能重构等功能,还通过百亿级参数大模型底座、企业级环境适配、私有化部署等优势,重新定义人机协作边界。在真实开发场景中,通义灵码显著提升API开发与算法优化效率,助力开发者从机械劳动转向创造性对话,开启人机协同的新时代。
107 9
通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品
阿里云的通义灵码是一款基于通义大模型的AI编程助手,能够智能生成代码、优化结构、排查错误并自动生成测试用例,支持多种主流编程语言。在2025年入选《值得关注的AIGC产品》榜单,凭借卓越技术与广泛应用场景成为国内开发者首选。通义灵码已在国内多个行业落地,大幅提升开发效率与代码质量,同时针对中文编程场景优化,支持企业内网部署保障数据安全,推动AI编程技术在教育与科研领域的创新应用。
通义灵码:AI赋能编程,开启智能开发新时代
通义灵码是阿里云推出的一款专为开发者设计的智能编程助手,基于自主研发的大模型打造。它不仅具备代码生成、智能补全、代码优化和实时调试等功能,还通过垂直领域深度训练、多语言全栈支持以及与主流IDE无缝集成,大幅提升开发效率。真实案例显示,通义灵码可显著减少编码时间和错误率,助力开发者专注于业务逻辑。未来,它还将进一步理解业务需求、参与代码评审和跨团队协作,重新定义软件开发范式。立即体验,让AI赋能每一行代码!
127 8
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等