备案控制台

开发者社区 ModelScope模型即服务文章正文

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

2023-05-09 464

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

【新智元导读】Meta新模型Make-A-Video，可以从文本一键生成视频了！AI的进展太神了……

给你一段话，让你做个视频，你能行吗？

Meta表示，我可以啊。

你没听错：使用AI，你也可以变成电影人了！

近日，Meta推出了新的AI模型，名字起得也是非常直接：做个视频（Make-A-Video）。

这个模型强大到什么程度？

一句话，就能实现「三马奔腾」的场景。

就连LeCun都说，该来的总是会来的。

视觉效果超炫

话不多说，咱们直接看效果。

俩袋鼠在厨房忙着做饭（做出来能不能吃另说）

近景：画师在画布上作画

大雨中漫步的二人世界（步伐整齐划一）

马在喝水

芭蕾舞女孩在摩天大楼跳舞

美丽的夏日热带海滩上，一只金毛在吃冰激凌（爪子已进化）

猫主子拿着遥控器在看电视（爪子已进化）

一只泰迪熊给自己画自画像

意料之外但情理之中的是，狗拿冰淇淋、猫拿遥控器以及泰迪熊画画的「手」，果然都「进化」得和人一样啊！（战术后仰）

当然，Make-A-Video除了可以把文本变成视频之外，也可以把静态图变成Gif。

输入：

输出：

输入：

输出：（亮的似乎有点不是地方）

2张静图变GIF，输入陨石图

输出：

以及，把视频，变成视频？

输入：

输出：

输入：

输出：

技术原理

今天，Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

论文地址：https://makeavideo.studio/Make-A-Video.pdf

在这个模型出现之前，我们已经有了Stable Diffusion。

聪明的科学家已经让AI用一句话生成图像了，下一步他们会做什么呢？

很显然，是生成视频。

一只穿着红色斗篷的超级英雄狗在天空中飞翔

比起生成图像来，生成视频可难多了。我们不仅需要生成相同主题和场景的多个帧，还必须让它们及时、连贯。

这就增加了图像生成任务的复杂性——我们不可能就简单地使用DALLE生成60张图像，然后把它们拼成一个视频。它的效果会很差，很不真实。

因此，我们需要一个能够以更强大的方式理解世界的模型，并且让它按照这种理解水平来生成一系列连贯的图像。只有这样，这些图像才可以天衣无缝地融合在一起。

也就是说，我们的诉求是模拟一个世界，然后再模拟它的记录。该怎么做到呢？

按照以前的思路，研究人员会用大量的文本-视频对来训练模型，但在现在的这种情况下，这种处理方法并不现实。因为这些数据很难获得，并且训练成本非常昂贵。

因此，研究人员开了脑洞，采用了一种全新的方式。

他们选择开发一个文本到图像的模型，然后把它应用于视频。

巧了，前段时间，Meta就曾开发过这么一个从文本到图像的模型Make-A-Scene。

Make-A-Scene的方法概述

文章标签：

媒体处理

人工智能

关键词：

AI模型

AI视频

AI meta

AI爆火

AI sota

-开发达人-

目录

相关文章

探索云世界

|

2月前

|

人工智能自然语言处理 IDE

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源，阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型，并可在交互式建模环境中使用 Qwen3-Coder 模型。

探索云世界

495 109 109

2025「AI安全」全球攻防赛小编

|

15天前

|

云安全人工智能自然语言处理

阿里云x硅基流动：AI安全护栏助力构建可信模型生态

阿里云AI安全护栏：大模型的“智能过滤系统”。

2025「AI安全」全球攻防赛小编

1455 29 31

卓伊凡

|

21天前

|

人工智能 API 数据安全/隐私保护

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

卓伊凡

260 12 13

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

汀丶人工智能

|

3月前

|

人工智能自然语言处理搜索推荐

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

汀丶人工智能

614 6 6

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

varin

|

2月前

|

人工智能 Java API

AI 超级智能体全栈项目阶段一：AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式（SDK/HTTP/SpringAI/langchain4j）

本文介绍AI大模型的核心概念、分类及开发者学习路径，重点讲解如何选择与接入大模型。项目基于Spring Boot，使用阿里云灵积模型（Qwen-Plus），对比SDK、HTTP、Spring AI和LangChain4j四种接入方式，助力开发者高效构建AI应用。

varin

945 122 129

AI 超级智能体全栈项目阶段一：AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式（SDK/HTTP/SpringAI/langchain4j）

网络AI

|

2月前

|

机器学习/深度学习数据采集人工智能

PyTorch学习实战：AI从数学基础到模型优化全流程精解

本文系统讲解人工智能、机器学习与深度学习的层级关系，涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程，结合数学原理与代码实践，深入浅出地介绍激活函数、反向传播等核心概念，助力快速入门深度学习。

网络AI

127 1 1

代码bug生产队

|

12天前

|

人工智能搜索推荐程序员

当AI学会“跨界思考”：多模态模型如何重塑人工智能

当AI学会“跨界思考”：多模态模型如何重塑人工智能

代码bug生产队

204 120 120

TsingtaoAI

|

3月前

|

人工智能自然语言处理数据可视化

AI视频培训｜格律诗AI 视频创作与自媒体传播——某诗词学会

近日，TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈，直击实操：首日聚焦"工具认知+创作逻辑"，系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用，如将"月光在指尖碎裂"转化为动态场景；次日深入"语音表达+自媒体运营"，传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技，更结合抖音、小红书平台特性，解析"前5秒高光片段设计"等流量密码。

TsingtaoAI

136 3 3

ModelScope模型即服务

热门文章

最新文章

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

仅100多元，他给视障人群装上AI“眼睛”

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

Qwen3-VL再添丁！4B/8B Dense模型开源，更轻量，仍强大

MiniMax-M2 发布！10B激活，专为高效编码与Agent工作流而生

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Thinking Machines Lab最新研究结果如何复现？On-Policy Distillation让训练成本直降10倍

UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

美团 LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

全新框架 Glyph 开源：用视觉理解文本，3–4 倍上下文压缩，近 5 倍推理提速！

MiniMax-M2 发布！10B激活，专为高效编码与Agent工作流而生

仅100多元，他给视障人群装上AI“眼睛”

腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

「超级开发个体」在诞生：一份白皮书带你理解AI时代开发者

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

相关课程

更多

通义灵码2.0 AI 编码训练营

AI应用开发

基于Gradio的AI应用搭建实践课

AI通识课-人工智能通识基础

使用Higress AI网关优化AI调用成本

基于通义灵码实现高效AI编码实践

相关电子书

更多

AI 原生应用开源开发者沙龙·上海站电子书

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

下一篇

开通oss服务