刚刚,通义万相模型能力重磅升级!

简介: 刚刚,通义万相模型能力重磅升级!


通过自研的高效VAEDiT架构

增强了时空上下文建模能力

支持无限长1080P视频的高效编解码

首次实现了中文文字视频生成功能

升级后的通义万相

荣登VBench榜单第一


VBench视频生成模型评测体系




01

复杂人物运动,稳定展现

旋转、跳跃、转身、翻滚......复杂的肢体运动、大幅度动作、镜头的移动都能稳定展现

Prompt在室内,镜头平拍一个外国男子跳霹雳舞的全景,男子身穿灰色的上衣和绿色的裤子,镜头随着男子的动作而移动,男子在舞台上进行一系列的翻滚和旋转动作,背景中可以看到观众席上的观众和一些模糊的舞台灯光,但焦点始终保持在舞者的动作上。


Prompt:巴洛克风格的欧式宫殿内,璀璨的水晶吊灯洒下柔和光芒,照亮了中央一对翩翩起舞的舞者。男士身着黑色燕尾服,搭配雪白衬衫与蝴蝶结领结,尽显绅士风度;女士一袭曳地长裙,裙摆以细腻蕾丝点缀,轻盈飘逸。他们紧紧相拥,手臂优雅交织,随着华尔兹旋律旋转跳跃,每一步都诠释着浪漫与激情。中景,采用稳定跟随拍摄,捕捉每一个旋转瞬间。



02

现实物理规律,逼真还原

碰撞、反弹、切割、挤压......

真实世界的物理规律,也能逼真还原

雨滴落在伞上,会溅起水花

做木雕,会有木头碎屑掉落

Prompt一对穿着正式晚礼服的夫妇在回家途中遭遇大雨,他们撑着黑色雨伞。平拍镜头下,男士穿着黑色西装,女士穿着白色长裙。他们在雨中缓缓行走,雨水沿着伞面滴落。镜头跟随他们的步伐平稳移动,展现出他们在雨中的优雅姿态。


Prompt:特写镜头聚焦于一双布满老茧的手,正细致地在木头上雕刻。手握刻刀,刀锋在飞舞的木屑中闪烁,木纹清晰,指尖轻盈游走在刀刃间,勾勒出精致的花纹与图案。背景虚化,仅见工作台与散落的木工工具,强调手部精妙动作与匠艺之精髓。


03

中英文视频特效,绚丽呈现

中英文视频,都可以一键生成艺术字

还提供多种视频特效选项,以增强视觉表现力

如过渡、粒子效果、模拟......

Prompt:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

Prompt:赛博朋克的城市里,夜晚霓虹灯闪烁,大楼上招牌写着“AI DAY”的文字,街道上车辆快速行驶。

04

影视质感与艺术风格,一键转换

电影色调、印象笔触、抽象表现......

强大的艺术风格表现力

帮你稳定生成各种风格视频

影视级画面质感与细节,也能精准还原

Prompt:哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在古老的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与紧张的氛围。近景动态骑马场景。

Prompt:视频以低角度仰拍开始,展现一名身穿银白色太空服的宇航员在月球表面行走的壮丽景象,四周是荒凉但神秘的月球地形,布满坑洞与崎岖不平的地貌。随着镜头缓慢推进,可以看到宇航员的手轻轻触摸到一颗悬浮在空中的星星,背景中,深邃的宇宙星河缓缓流转,星星闪烁,构成一幅令人惊叹的星际画卷。整个视频通过慢镜头和精心设计的镜头运动,营造出一种梦幻般的科幻氛围,引领观众一同踏上这场月球探索之旅。

通义万相2.1支持文生组图

采用了IC-LoRA图像生成训练方法

利用DiT架构,增强文本到图像的上下文能力

对多张图像进行拼接与联合描述

轻松实现关联图像间的组合生成

并保持特征稳定连续

在通义万相官网可以体验哪些玩法?


01

分镜流畅,电影质感

还原电影级的分镜效果

角色、相貌、动作、环境、灯光连贯......

将故事情节、视觉效果和氛围营造完美结合

确保每一张图连贯且富有表现力

Prompt:浪漫的公园里,一对青年男女在温馨的拥抱交谈


02

四格漫画,故事速览


描述你希望展现的漫画剧情与风格

通过四格漫画,为你讲述一个小故事

Prompt:一只小狗在抓蝴蝶,撞到了一棵大树上,眼冒金星。


03

情侣头像,创意定制

根据你的喜好、风格、特点

定制一套专属情侣头像

卡通风格、写实风格、创意风格

满足你的一切需求



Prompt:生成一组可爱的卡通情侣头像


快来通义万相官网体验吧~

即日起,也可以进入阿里云百炼调用API


🎉 福利环节 🎉

评论区点赞前3

可以领取通义2025年定制日历

活动截止时间:2025年1月17日 17:00

推荐阅读

速速收藏!通义AI生视频保姆级教程来了


相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
670 109
|
1月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
88 1
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
270 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1408 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
261 120
|
3月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
681 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
559 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
755 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章