通义万相上新,登顶!

简介: 通义万相上新,登顶!

刚刚,阿里云通义万相迎来重磅升级,推出万相2.1视频生成模型,在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升,并在权威评测榜单VBench中登上榜首



VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分84.7%的成绩斩获第一


精准理解和模拟物理世界是当下视频生成模型的核心难题,现有模型生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。针对这一难题,通义万相团队采用自研高效的VAE和DiT架构,有效增强时空上下文关系建模能力


在全新架构下,通义万相在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定即便是花样滑冰、游泳、跳水等运动视频也能保持肢体协调并符合正常运动轨迹。通义万相在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型可满足广告设计、短视频等领域的创作需求。


用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。”


用户输入:“平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅”


在DiT的设计中,全新通义万相使用时空全注意机制,这一机制让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制,不仅提升了模型的性能,还有效降低了训练成本;此外,针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。


用户输入:“远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散”


在视频VAE方面,通义万相设计了一种创新的视频编解码方案。通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频端到端的编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码,这一关键技术为任意时长视频的训练提供了新的路径。


用户输入:“一只绵羊正低头在河边饮水。平拍近景下,这只羊有着蓬松的白色羊毛,耳朵垂下,嘴巴轻轻触碰水面。镜头缓缓推进,展示它喝水时的宁静姿态,背景是缓缓流动的河水和远处的绿色草地。”


用户输入:“在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。”


目前该模型已全面开放,用户可在通义万相官网直接免费使用,个人开发者和企业用户还可在阿里云百炼调用通义万相API进一步创造更丰富的AI工具和应用。


/ END /

目录
打赏
0
0
0
0
920
分享
相关文章
通义万相重磅升级,成功登顶VBench,百炼邀您第一时间体验
阿里云通义万相推出2.1视频生成模型,大幅提升复杂运动、物理规律遵循及艺术表现,在权威评测VBench中夺冠。新模型采用自研VAE和DiT架构,增强时空上下文建模,实现更稳定的大幅度肢体运动和多对象生成。通义万相支持中英文文字特效生成,满足广告设计、短视频等创作需求,并在阿里云百炼平台开放API调用,提供免费试用资源。
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
1096 0
【AI绘画】Stable Diffusion 客户端搭建
【AI绘画】Stable Diffusion 客户端搭建
228 0
【AI绘画】Stable Diffusion 客户端搭建
AI 绘画Stable Diffusion 研究(十七)SD lora 详解(上)
AI 绘画Stable Diffusion 研究(十七)SD lora 详解(上)
1714 0
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
1079 0
Stable Diffusion AI绘画
Stable Diffusion是人工智能领域的文本到图像生成模型,基于概率的连续扩散过程,学习数据潜在分布并生成新样本。模型使用Web UI进行交互,提供不同采样器如Euler和DPM++,后者常配以Karras算法。提示词对生成效果至关重要,可以利用GPT等生成提示词。用户还能调整参数如高清修复和批处理次数来影响生成的图像。此外,模型文件(ckpt/safetensors)和Lora微调模型需存放在正确目录以确保功能正常。
AI 绘画Stable Diffusion 研究(十三)SD数字人制作工具SadTlaker使用教程
AI 绘画Stable Diffusion 研究(十三)SD数字人制作工具SadTlaker使用教程
644 0
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画---Stable Diffusion checkpoint 插件无法安装,中文包无法下载怎么办?这里该如何解决,扩展无法出现
AI绘画---Stable Diffusion checkpoint 插件无法安装,中文包无法下载怎么办?这里该如何解决,扩展无法出现
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
1196 4
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等