魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(下)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
视觉智能开放平台,分割抠图1万点
简介: 魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型

二、 多模态可变的扩散模型

 

image.png

 

接下来,讲一讲维度可变的扩散模型,这是目前效果最好的一种生成模型范式。

传统的生成器架构,使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块,成为一个大图。当训练数据量非常大时,多阶段的超分学习方没有纠错能力,经常会出错。

 

因此达摩院在文本生成图像模型方面,进行创新,达摩院提出维度可变的扩散模型生成器,采取端到端学习的方式,不仅高效,而且有非常强的纠错能力。

 

image.png

 

接下来,举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟,是算法生成的虚假图片,并不是来自某个设计师。

 

image.png

 

上图中的人物极具真实感,很像照相机拍摄的效果。但这些都是是算法直接出图的效果。

 

image.png

 

除此之外,如上图所示,该模型还可以自动生成二次元的动漫风格。

 

image.png

 

上图中带有3D效果的动画场景,比如房子、街道、风景、人物等等,均是模型自动生成的。

 

image.png

 

与此同时,用户还可以基于模型,进行创意应用,比如创意广告的图片生成。如上图所示,系统可以将一个茶壶,放到一茶园、落日、瀑布等场景,非常自然地融入。

 

image.png

 

与此同时,达摩院对文本生成视频进行探索,相比文本生成图像,它的效果暂时没有那么真实。

 

文本生成视频的算法架构,是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于,文本生成图像的基础能力。

 

image.png

 

目前,上述的文本生成模型均在ModelScope社区开源,大家可以登陆网址:https://decoder.modelscope.cn,或者通过手机扫描上方的二维码进行体验。

相关文章
|
6月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
24天前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
4月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。
|
6月前
|
数据可视化 物联网 Swift
澜舟科技开源孟子3-13B大模型,魔搭社区推理训练最佳实践!
4月1日,澜舟科技宣布开源Mengzi3-13B大模型,对学术研究完全开放,同时支持免费商用。
|
6月前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
|
6月前
|
人工智能 知识图谱 Windows
Mistral 7B v0.2 基础模型开源,魔搭社区微调教程和评测来啦!
Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点
|
6月前
|
人工智能 数据可视化 物联网
Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用。
|
编解码 人工智能 自然语言处理
通义千问开源第二波!多模态来啦!(内含魔搭最佳实践)
近期,通义千问大规模视觉语言模型Qwen-VL上线魔搭社区,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
|
人工智能
魔搭中文开源模型社区:模型即服务-通用多模态AI构建(中)
魔搭中文开源模型社区:模型即服务-通用多模态AI构建
689 2
|
机器学习/深度学习 人工智能 达摩院
下一篇
无影云桌面