文档备案控制台

开发者社区千问大模型文章正文

通义万相新模型开源，首尾帧图一键生成特效视频！

2025-05-22 993

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义万相首尾帧生视频14B模型正式开源，作为首个百亿级参数规模的开源模型，可依据用户提供的开始与结束图片生成720p高清衔接视频，满足延时摄影、变身等定制化需求。用户上传两张图片或输入提示词即可完成复杂视频生成任务，支持运镜控制和特效变化。该模型基于Wan2.1架构改进，训练数据专门构建，确保高分辨率和流畅性。

🔊通义万相首尾帧生视频14B模型正式开源。

作为业界首个百亿级参数规模的开源首尾帧生视频模型，该模型可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的720p高清视频，满足延时摄影、变身等更可控、更定制化的视频生成需求。

基于该模型，用户上传两张图片即可完成更复杂、更个性化的视频生成任务，并实现同一主体的特效变化、不同场景的运镜控制等视频生成。

用户还可输入一段提示词，通过旋转、摇镜、推进等运镜控制衔接画面，在保证视频和预设图片一致性前提下，让视频拥有更丰富的视觉效果。

#模型体验

目前，用户可在通义万相官网直接免费体验该模型，或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。

通义万相官网：https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub：https://github.com/Wan-Video/Wan2.1

Hugging Face：https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

魔搭社区：https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

#技术解读

首尾帧生视频比文生视频、单图生视频的可控性更高，是最受AI视频创作者欢迎的功能之一，但这类模型的训练难度较大，对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等均有高要求。

基于现有的Wan2.1文生视频基础模型架构，通义万相首尾帧生视频模型进一步引入了额外的条件控制机制，通过该机制可实现流畅且精准的首尾帧变换。

在训练阶段，通义团队还构建了专门用于首尾帧模式的训练数据，同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略，这些策略提升了模型训练和生成效率，也保障了模型具备高分辨率视频生成的效果。

今年2月，通义万相Wan2.1文生视频和图生视频模型开源后，迅速登上Hugging Face模型热榜和模型空间榜榜首，其在GitHub已斩获超10k star，模型下载量超过220万，是开源社区热度最高的大模型之一。

#效果展示

是不是很神奇呢，那赶快抓紧来体验吧~~

当然🏀如果您还想要了解更多通义大模型的模型详细信息以及直接进入体验，可以直接点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验~~

也可以关注一下通义大模型的公众号，后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

文章标签：

大模型服务平台百炼

编解码

搜索推荐

人工智能

bailiantest1

目录

相关文章

代码bug生产队

|

5月前

|

人工智能搜索推荐程序员

当AI学会“跨界思考”：多模态模型如何重塑人工智能

当AI学会“跨界思考”：多模态模型如何重塑人工智能

代码bug生产队

708 120 120

modelscope

|

6月前

|

自然语言处理机器人图形学

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

腾讯混元图像3.0，真的来了——开源，免费开放使用。正式介绍一下：混元图像3.0（HunyuanImage 3.0），是首个工业级原生多模态生图模型，参数规模80B，也是目前测评效果最好、参数量最大的开源生图模型，效果可对…

modelscope

1328 2 2

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

八进智

|

5月前

|

缓存物联网 PyTorch

使用TensorRT LLM构建和运行Qwen模型

本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型，涵盖模型转换、引擎构建、量化推理及LoRA微调等操作，并提供详细的代码示例与支持矩阵。

八进智

1448 2 2

aliyun9170107523-43660

|

5月前

|

存储机器学习/深度学习人工智能

54_模型优化：大模型的压缩与量化

随着大型语言模型(LLM)的快速发展，模型规模呈指数级增长，从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本，同时也给部署和推理带来了巨大挑战。2025年，大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践，探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署，为企业和开发者提供全面的技术指导。

aliyun9170107523-43660

486 0 0

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习人工智能自然语言处理

38_多模态模型：CLIP的视觉-语言对齐_深度解析

想象一下，当你看到一张小狗在草地上奔跑的图片时，你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的，但对于人工智能系统而言，实现这种能力却经历了长期的技术挑战。多模态学习的出现，标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

aliyun9170107523-43660

1000 0 0

探索云世界

|

6月前

|

人工智能自然语言处理 IDE

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源，阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型，并可在交互式建模环境中使用 Qwen3-Coder 模型。

探索云世界

1130 109 109

modelscope

|

6月前

|

分布式计算测试技术 Spark

科大讯飞开源星火化学大模型、文生音效模型

近期，科大讯飞在魔搭社区（ModelScope）和Gitcode上开源两款模型：讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly，助力前沿化学技术研究，以及声音生成技术和应用的探索。

modelscope

595 2 2

千问大模型

热门文章

最新文章

2026年OpenClaw（养龙虾）+ 钉钉对接：保姆级全链路操作指南

ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码

大模型应用：大模型与智能体（Agent）的核心差异：从定义到实践全解析.34

Docker+vLLM内网离线部署Qwen3 流程

通义听悟--一个懂你的AI助理

三分钟让Dify接入Ollama部署的本地大模型！

本地离线部署大模型知识库OLLAMA+Anything（保姆级）

【完全免费】VS Code 最好用的 12 款 AI 代码提示插件！！！

2026年智能体（Agent）怎么学？从入门到实战的全景避坑指南

DeepSeek——DeepSeek模型部署实战

大模型应用：Mistral-7B-Instruct 中文超长文本处理实战全解析.59

阿里云Tokens是如何收费的？收费标准与万亿Tokens扶持和7000万 Tokens 免费体验活动介绍

阿里云2026年AI焕新季，马上用千问活动：先用后返至高500元、万亿Tokens扶持、AI焕新礼包规则介绍

再也不怕局部拍屏泄露：一项能抗部分屏幕拍摄的溯源黑科技来了（第10期）

大模型应用：稀疏注意力 vs 滑动窗口：大模型扩窗技术完全解析.58

当所有简历都能被 AI 写漂亮之后：招聘行业真正该如何使用 AI

下一代 IDE，没有文本编辑器

大模型应用：上下文理解极限：Context Window 与注意力跨度的数学边界.57

Infiniband/以太网，算力组网布线方案

56.大模型应用：大模型瘦身：量化、蒸馏、剪枝的基础原理与应用场景深度解析.56

相关课程

更多

阿里云大模型工程师ACA认证课程

阿里云百炼大模型产品实践

ADB-PG+大模型一站式AIGC解决方案

阿里云百炼，手把手教你如何构建企业大模型应用服务

云原生AI套件：一键训练大模型及部署GPU共享推理服务

【开眼界】大模型时代的个人应对策略

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

下一篇

5月安全新品播课（1）|混合云下割裂的Web安全管理挑战如何破？