通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频

本文涉及的产品
视觉智能开放平台,视频资源包5000点
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 万相2.1是阿里通义万相最新推出的视频生成模型,支持1080P无限长视频生成,具备复杂动作展现、物理规律还原、艺术风格转换等功能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能强大:支持1080P无限长视频生成,具备复杂动作展现、物理规律还原等功能。
  2. 技术先进:基于VAE和DiT架构,增强时空上下文建模能力,支持高效编解码。
  3. 应用广泛:适用于影视制作、广告视频、教学辅助、文化创作等多个领域。

正文(附运行示例)

万相2.1 是什么

autotrain-advanced

万相2.1是阿里推出的通义万相升级版本,基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码。首次实现中文文字视频生成功能,并在VBench榜单上荣登第一。

万相2.1能够稳定展现复杂人物运动,逼真还原现实物理规律,一键生成中英文视频特效,具备强大的影视质感与艺术风格转换能力。此外,它还支持文生组图,采用IC-LoRA图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。

万相2.1 的主要功能

  • 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
  • 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
  • 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
  • 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
  • 图生成:支持分镜效果还原、四格漫画创作、创意头像定制等功能,满足用户的不同需求。

万相2.1 的技术原理

  • VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
  • DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
  • IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
  • 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。

如何运行 万相2.1

1. 访问官网

首先,访问通义万相AI视频官网,开启视频创作。

2. 输入提示词

根据需求输入提示词,例如:

  • 文字特效:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。
  • 运动:一辆汽车在被雪覆盖的公路上高速飞驰。

3. 生成视频

点击生成按钮,万相2.1将根据提示词生成相应的视频内容。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
18天前
|
测试技术
通义千问团队开源全新的过程奖励模型PRM!
近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。
|
17天前
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
|
10天前
|
机器学习/深度学习 人工智能 监控
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。
97 25
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
|
8天前
|
人工智能 编解码 JSON
Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频
Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。
196 18
Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Qwen2.5-Max:阿里通义千问超大规模 MoE 模型,使用超过20万亿tokens的预训练数据
Qwen2.5-Max是阿里云推出的超大规模MoE模型,具备强大的语言处理能力、编程辅助和多模态处理功能,支持29种以上语言和高达128K的上下文长度。
449 12
Qwen2.5-Max:阿里通义千问超大规模 MoE 模型,使用超过20万亿tokens的预训练数据
|
6天前
|
人工智能 测试技术
QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解
阿里云通义千问团队开源的多模态推理模型 QVQ-72B-Preview,专注于提升视觉推理能力,支持复杂图像理解和逐步推理。
53 6
QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解
|
15天前
|
文字识别
统一多模态Embedding, 通义实验室开源GME系列模型
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。
|
1月前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
25天前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
164 22
|
2月前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验