‘通义万相’使用体验——令人惊艳的AI绘画创作大模型

简介: 7月7日,阿里云在2023世界人工智能大会上宣布,AI绘画创作大模型通义万相开启定向邀测。通义万相是阿里云“通义”大模型系列第三个产品,此前的通义千问、通义听悟分别具备文字问答和语音文字处理的功能。目前该模型已经开启定向邀测.

一、背景

     7月7日,阿里云在2023世界人工智能大会上宣布,AI绘画创作大模型通义万相开启定向邀测。通义万相是阿里云“通义”大模型系列第三个产品,此前的通义千问、通义听悟分别具备文字问答和语音文字处理的功能。



      目前该模型已经开启定向邀测,网址:通义万相 (aliyun.com)


二、产品体验

     这次产品发布无疑给我带来了非常多的好奇与激动,所以发布会结束之后我立刻就去体验了这款产品。



通义万相首批上线3大能力分别是文生图、相似图像生成、图像风格迁移。



1.文生图


     文生图页面左侧有一个简洁的界面,上方有一个文本输入框,在输入框内可以输入prompt。文本框下方提供8个可选的画面风格(水彩、油画、中国画、扁平插画、二次元、素描、3D卡通等)以及生成按钮。


图丨左:水彩风格的夜晚的海滩,月光洒在波澜壮阔的海面上;右:默认风格的夜晚的海滩,月光洒在波澜壮阔的海面上(来源:通义万相生成)

     常规景色下万相的表现非常优秀。图中的海面波光粼粼,月光洒在海滩上,给人一种宁静祥和的感觉。左侧水彩图片的色彩饱满,绘画效果非常逼真;而右侧默认风格的海滩让人仿佛置身于夜晚的海滩中!


图丨左:油画风格的咖喱蛋包饭;右:3D卡通风格的咖喱蛋包饭(来源:通义万相生成)

    针对美食类图像,万相的表现也相当不错。图中油画风格的蛋包饭色彩鲜艳,让人非常有食欲,而卡通风格的蛋包饭图像细节处理很到位,并且远景也值得称赞!


图丨左:中国画风格的冬天的梅花;右:扁平插画风格的冬天的梅花(来源:通义万相生成)

    生成的中国画效果的梅花实打实的惊艳到了我,让我一度误以为是哪一古画上的截图!而插画风格的冬天梅花无论是构图还是风格都让人赞叹。

    接下来让我们看看终极挑战:当万相面对我们拥有文化内蕴的古诗词时,它将如何表现呢?


图:采菊东篱下,悠然见南山丨左:默认风格;右:中国画风格(来源:通义万相生成)

图:执子之手,与子偕老丨左:默认风格;右:中国画风格(来源:通义万相生成)


     在遇到描写景物的诗句时,万相生成的图片能够精准捕捉诗句中关键信息点,例如‘采菊东篱下,悠然见南山’中的菊花以及高山。所生成的中国画风格的图片还带有一丝悠然田园的意境。

     然而在面对一些抽象的古诗词时,模型的表现就不太稳定了。例如‘执子之手,与子偕老’一句中,原是指战士之间的约定,曾经在一起发过誓,一同生死不分离。现代常常形容爱情的永恒。而万相所生成的默认风格图像似乎只能捕捉一些关键信息,并不能理解诗句的含义,素描风格比较贴合。但是风格受限。


2.相似图像生成


    相似图像生成的界面支持上传不超过10M的jpg、jpeg、png、bmp图片。点击生成按钮,右侧生成4张相似图片可供下载。


   

图丨左:原图;右:相似图像生成(来源:通义万相生成)

     左侧我们输入一张猫咪图片,万相生成的图片把猫咪的毛发纹路,特色都得以保留,让人觉得是同一个画手所画出的。


图丨左:原图;右:相似图像生成(来源:通义万相生成)

      输入美食图片,生成的相似图简直达到了以假乱真的地步。相似图与原图在风格上高度统一的同时,内容上又完全不同。


图丨左:原图;右:相似图像生成(来源:通义万相生成)

    这次我们来挑战高难度,左图是画面复杂的古风小姐姐,而万相生成的实测效果就有些差强人意。虽然内容上做到了同步,但是风格和原图就大有不同了。看来对于复杂图像的相似图生成来说,万相的模型训练还有待进一步加强。


3.图像风格迁移


     风格迁移界面支持输入两张图片,一张为原图,一张为指定风格图。生成的图像会保留原图的内容和风格图的风格。

图丨图一:原图;图二:风格图;图三:生成图(来源:通义万相生成)


     本次测试我采用的是万相生成的荷花图片(图一)与同是万相生成的插画风图片(图二)的风格相融合,生成了具有插画风格的荷花图(图三)。整体表现优秀,将原图的大部分内容插画风的同时,色彩上也做了统一。


图丨图一:原图;图二:风格图;图三:生成图(来源:通义万相生成)


    这一次我选取了难度较高的两张图进行风格融合,可以看到万相融合了图一的内容和图二的色彩,完成了图三。图三整体风格迁移完整,细节保留也恨完好,但是并没有生成我期望的真正的Q版画风的女孩形象,希望后续可以提供更多给用户操作的空间。


图丨图一:原图;图二:风格图;图三:生成图(来源:通义万相生成)


     本次测试我采用的是官方示例图,可以看到,万相将素描风原图(图一)与手绘风图(图二)的风格迁移是非常优秀的。相较于第一次测试来说,本次原图的内容保留几乎完美,风格也完美的融合了图二。是真正意义上可以代表这一功能的示范图。


三、总结

     这次体验总的来说,我对‘通义万相’这款产品的功能使用体验是非常满意的。产品的优点非常显著,能够满足目前大部分人对于ai文生图、图生图的功能需求。但产品还在发布初期,总归有一些功能不太完善。以下是我对【通义万相】这一产品的优点总结以及建议。


优点

  • 生成速度快:经实测,复杂的图像生成在45s以下,简单图像在30s以下,图像生成的速度可以达到我的需求,这对于忙碌的用户来说非常方便。
  • 文生图风格多样:支持8种风格,并且风格之间的差别,特色都十分显著。无论是二次元风格还是写实风格,表现力都不错。作为用户都可以找到适合自己的选择,这种多样性使得使用者可以根据自己的独特需求和喜好来创作出个性化的作品。
  • 相似图与原图贴合程度极高:产品将相似图片与原图进行精确匹配,保留了原本图片的特征和细节。使用过程中无需担心生成的图片与原图差异过大。
  • 风格迁移保留原本图像信息万相能够保留原本图像的信息,使得生成的图片在拥有新的艺术风格的同时仍然能够保持原始图像的特征。这种特点使得生成的图片更具有艺术性和个性化,同时让使用者感受到了作品与自己原始创意的融合。

一些建议

  • 完善模型对抽象词句的理解:在处理文本时,AI经常难以理解抽象的词句,导致生成的结果与用户期望的不一致。文学创作中的古诗、成语除了字面意思上之外通常有其他更抽象的含义,希望后续万相能够更好地理解抽象词句。
  • 图生图功能提供关键词、保留词:建议在图生图功能中提供更多的操作空间,例如给用户提供关键词和保留词,让用户能够更灵活地生成图像。用户可以通过输入关键词来指定所需图像的风格或主题,同时通过保留词来决定图像中哪些内容需要保留。此外,还可以考虑加入背景颜色更换功能,让用户能够自由选择最适合的背景颜色。
  • 画作管理库:希望万相能够提供一个画作管理库。目前,虽然可以保留20条生成记录,但对于大部分用户来说还是有些不够。通过建立一个画作管理库,用户可以将生成的画作按照图片、风格、内容等分类进行管理和查找。这样不仅方便用户整理生成记录,也能帮助用户更快地找到之前生成的作品。

     近年来,随着人工智能技术的发展和应用,越来越多的软件和平台开始提供AI绘画创作功能,这些功能不仅给了不具备绘画技巧但有创意的人一个表达的方式,也为设计师、广告人员等提供了快速生成素材的选择。

     尽管目前的功能在创作上有一定的局限性,但随着技术的不断进步,相信将来能够更好地满足用户的需求,生成更加多样化、精美的图片。我期待未来能见到‘通义万相’在艺术创作领域的更多应用,为我们带来更多惊喜和创意。

四、通义万相体验链接


在此附上‘通义万相’试用链接,邀请感兴趣的小伙伴一起体验~

👉通义万相直通车

相关文章
|
22天前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
194 7
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
9天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
44 3
|
18天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
83 2
|
11天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
42 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
23天前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
8天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
16天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
12天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
63 4
下一篇
无影云桌面