通义大模型使用指南之通义万相

简介: 该文介绍了如何在阿里云的通义大模型平台注册账号,并详细展示了通义万相功能的使用,包括文本生成图像、相似图像生成、图像风格迁移和应用广场(虚拟模特)四个部分。用户可以通过输入文字或选择图片,生成不同风格的创意作品,并能进行点赞、不满意、生成相似图、下载原图和收藏等操作。在应用广场中,用户可以上传图片并替换模特及背景,创建个性化商品展示图。

一、注册

我们可以打开以下网站,用手机号注册一个账号即可。

通义大模型 (aliyun.com)

二、使用介绍

如图,我们可以看到有三个大项功能,通义千问、通义万相、通义听悟。下来我们体验一下通义万相的功能。

1、通义万相

点开上面的通义万相,我们可以进入如下界面:通义万相 (aliyun.com),可以看到主要有这几个功能:文本生成图像、相似图像生成、图像风格迁移和应用广场

1、1文本生成图像

当我们点击 文本生成图像 的时候,会出现如下界面 ,在问本框内输入文字,例如我输入了 山水画 ,点击 生成创意画作 就会出现右侧的图

当我们觉得不满意的时候可以点击右上角的再次生成,或者想在原有的基础上再添加其他元素的时候,可以点击由上角的 复用创意

可以看到生成的图片有点像现代的画,不像是古代的那种山水画,于是我又重新输入了 古代游船

显示的画作还是很奇怪,于是我输入了

山水画画一个古诗为 远上寒山石径斜,白云深处有人家。 停车坐爱枫林晚,霜叶红于二月花的意境 ,

可以看到产生的画作确实还是比较现代,可能就是这个平台的风格,

生成满意的画作之后,我们在每个图片下面看到这几个按钮,从左向右分别为 点赞、 不满意、生成相似图、下载原图、收藏 功能,可以进行自己想要的操作。

image.png

1、2相似图像生成

当我们点击 相似图像生成 的时候,会出现如下界面 ,在图像区选择一个图片文字,例如我输入了 官方样例 ,点击 生成相似画作 就会出现下方的图

当我们选择失误的时候可以选择原图中左上角 删除 按钮来切换图片

1、3图像风格迁移

当我们点击 图像风格迁移 的时候,会出现如下界面 ,在图像区上侧是选择原图,下侧选择风格图,然后点击生成

可以看到生成了如下画作:

可以看到原图就像是用风格图渲染了一遍一样。

1、4应用广场

当我们选择应用广场中的虚拟模特时

image.png

进入如下界面,可以看到主要功能为

1、上传真人实拍商品展示图

2、选择要保留的商品区域

3、配置模特形象与场景环境

4、点击生成获取模特大片

然后我在左侧的图片处选择一张图片,在右侧选中要替换的地方,在下方的提示词处输入一些提示词和预设模版

然后我们点击生成,可以看到生成后的图片基本满足了我们的提示词。

当然我们也可以在自定义的地方求换模特形象和背景环境,切换后的效果如下:

再次切换效果如下,可以看到还是有变化的。


以上就是我们本次体验的通义万相的功能了。

相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
从“看图说话”到“脑补世界”:多模态大模型的进化之路
从“看图说话”到“脑补世界”:多模态大模型的进化之路
148 63
|
19天前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
190 0
|
1月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
283 62
|
1天前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
|
8天前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
83 1
|
25天前
|
数据采集 存储 人工智能
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
|
26天前
|
API 数据处理 异构计算
魔塔社区-微调Qwen3-1.7B大模型实战
这是一篇关于模型微调实战的教程,主要步骤如下:1. 使用魔塔社区提供的GPU环境;2. 处理 delicate_medical_r1_data 数据集生成训练和验证文件;3. 加载Modelscope上的Qwen3-1.7B模型;4. 注册并使用Swanlab工具配置API;5. 按顺序执行完整代码完成微调设置;6. 展示训练过程。完整代码与实验记录分别托管于魔塔社区和SwanLab平台,方便复现与学习。
370 1