📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界

简介: 通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。

image.png

多模态大模型的演进正在不断突破我们对技术边界的认知。从最初的 Qwen-VL 到如今的 Qwen2.5 -VL,通义qwen团队在提升模型对图像内容的理解能力方面取得了一些进展。他们正式推出 Qwen VLo——一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。

👇生成过程:发挥你的想象力,将你的想法变成现实


正如视频中展示的生成过程,Qwen VLo 以一种渐进式生成方式,从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中,模型会对预测的内容不断调整和优化,从而确保最终结果更加和谐一致。这种生成机制不仅提升了视觉效果,还为用户带来了更灵活、更可控的创作体验。

现在,可在Qwen Chat(chat.qwen.ai)上直接体验新模型 Qwen VLo。



从理解到创造:更精准的多模态生成能力


Qwen VLo 在原始多模态理解与生成能力上进行了全面升级,显著增强了对图像内容的理解深度,并在此基础上实现了更加准确和一致的生成效果。

以下是  Qwen VLo 的核心亮点:

01 更精准的内容理解与再创造

以往的多模态模型在生成过程中容易出现语义不一致的问题,例如将汽车误生成其他类型的物体,或者无法保留原图的关键结构特征。而 Qwen VLo 通过更强大的细节捕捉能力,能够在生成过程中保持高度的语义一致性。例如,当用户输入一张汽车的照片并要求“更换颜色”时,Qwen VLo 不仅能准确识别车型,还能保留其原有的结构特征,同时完成色彩风格的自然转换,让生成结果既符合预期又不失真实感。


02 支持开放指令编辑修改生成

用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空”。Qwen VLo 能够灵活响应这些开放性指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,模型都能轻松应对。甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也可以通过编辑指令轻松完成。更进一步,像很多更复杂的指令,比如一条指令中同时包含修改物体、修改文字、更换背景,模型也能轻松完成。


03 多语言指令支持

Qwen VLo 支持包括中文、英文在内的多种语言指令,打破了语言壁垒,为全球用户提供了统一且便捷的交互体验。无论您使用哪种语言,只需简单描述您的需求,模型便能快速理解并输出理想结果。


样例展示

Qwen VLo 更像一个人类画师, 根据自己的理解再进行创作。下面是一些具体的例子。

样例1:图像生成与编辑

Qwen VLo 能够直接生成图像,并对其进行修改,例如替换背景、添加主体、进行风格迁移,甚至可以完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。

image.png

image.png

image.png

样例2:风格转换与迁移

Qwen VLo 会根据自己的理解进行重新创作,这意味着在风格转换和迁移方面拥有更大的发挥空间,比如将卡通变为写实、将形象变成气球等有趣的生成效果。

prompt:变成真实照片

image.png

prompt:背景换成埃菲尔铁塔

image.png

prompt:变成气球飘到空中

image.png

prompt:把西瓜换成榴莲

image.png

样例3: 复杂指令理解与多重任务

Qwen VLo 在图像与指令理解上的优势使其能够更好地解析复杂指令,一条指令中可以包含多个操作和修改,从而一次性完成多重任务,例如生成海报、组合物体等。

prompt:生成照片,图中男人带着黑帽子,地铁上看报纸,旁边是一个美丽的,带红色墨镜年轻女性,还有一只哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“Qwen VLo”

image.png

样例4:多图片理解及生成

Qwen VLo 可以支持多张图像的输入理解和生成。

prompt: image.png 把这些洗浴用品,放到这个红色的篮子里面

image.png

样例5:图像检测及标注

Qwen VLo 除了能对图像的编辑和再创作,还可以完成一些对已有信息的标注,比如检测、分割、边缘检测等。

prompt:生成摆满水果的桌面

image.png

prompt:预测边缘检测图

image.png

prompt:用红色mask分割图中香蕉的边缘

image.png

样例6:文本到图像直接生成

当然除了图文同时输入的情况,Qwen VLo 也支持文本到图像的直接生成,包括通用图像和中英文海报等。

prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Qwen VLo!"

made out of colorful energy

image.png

样例7:生成图像再分析

作为统一的理解与生成模型,Qwen VLo 还可以对生成的内容进行再分析和理解,例如识别生成图片中的狗和猫的品种。

prompt:Generate a puppy and a kitten

image.png

prompt:What breed of cat and dog is this?

The image shows a puppy and a kitten interacting in a cozy indoor setting. Let's identify the breeds.

Dog:  

- The puppy appears to be a Beagle or a Beagle mix. Key characteristics include:  

 - Tri-color coat (brown, white, and black)  

 - Floppy ears  

 - Compact body structure  

 - Expressive eyes and a friendly demeanor  

Cat:  

- The kitten appears to be a Tabby cat. Key characteristics include:  

 - Striped or spotted fur pattern, which is typical of tabby cats  

 - A mix of brown, black, and white fur, which is common in tabby patterns  

Both animals are young and appear to be very playful and curious, which is typical behavior for puppies and kittens. The interaction between them suggests a friendly and affectionate relationship, which is often seen when different species bond early in life.

工作原理

Qwen VLo 采用动态分辨率训练,支持动态分辨率生成。无论是输入端还是输出端,模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式,可以根据实际需求生成适配不同场景的图像内容,无论是海报、插图、网页Banner还是社交媒体封面,都能轻松应对。

此外,Qwen VLo 还创新性地引入了一种全新的生成机制:从上到下、从左到右逐步清晰的生成过程。这一机制不仅提升了生成效率,还特别适用于需要精细控制的长段落文字生成任务。例如,在生成带有大量文本的广告设计或漫画分镜时,Qwen VLo 逐步生成慢慢修改。这种渐进式的生成方式让用户可以实时观察生成过程,并根据需要进行调整,从而获得最佳的创作效果。

局限性

Qwen VLo 还属于预览阶段,还有很多不足的地方,在生成的过程可能存在不符合事实、不完全和原图一致的问题,我们还在持续迭代。

未来聚焦方向

用图像表达想法,用生成促进理解

随着多模态大模型逐渐具备视觉与文本的双向输入输出能力,我们也开启了一种全新的表达和交互方式。未来,模型不仅可以用文本回答问题,还可以用图像来传递想法和含义。例如,生成示意图、添加辅助线、标注关键区域等功能,都将为用户提供更多元化的交流手段。

与此同时,具备输出能力的多模态模型也为我们提供了新的监督方式。通过生成任务,我们可以更好地帮助模型理解世界。例如,模型可以通过生成分割图、检测图等中间结果来验证自身的理解是否正确,从而进一步提升性能。这将是我们在未来持续关注和探索的方向。


⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

相关文章
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1395 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
215 113
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
268 114
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
247 117
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
518 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1095 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题

热门文章

最新文章