文生视频大模型

简介: Sora 是由 OpenAI 发布的一款文本生成视频的人工智能模型,能够在理解文本的基础上生成高质量的视频内容。Sora 具备 3D 一致性、远程相干性和物体持久性等特性,但目前仍处于测试阶段,仅限特定专家使用,以确保其安全性。

简介

Sora 官网地址:https://openai.com/sora

文生视频指的是将文本描述转化为视频内容的技术,2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型,在人工智能领域掀起了一场风波,这是计算机视觉领域的一个突破。

Sora 这一名称起源于日文中“空”的含义,暗示了其具备的无限潜力。OpenAI 也在报告中将 Sora 定义为 “word simulators” 即世界模型或者世界模拟器,可见 OpenAI 对于 sora 的能力具备足够的信心。

注意:个人暂时无法体验。

Sora 的能力

Sora 是一种扩散模型,旨在对语言更深入的理解,使得模型能够准确的识别出文本的含义,OpenAI 官方表明 Sora 能够生成1分钟的高清视频,并且给出了一个视频生成的示例,该示例展示出了 Sora 根据文本内容所生成的一段视频信息:

  • 提示文本:一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着黑色的皮夹克,红色的长裙和黑色的靴子。
  • 视频地址

image.png

可以看出,Sora根据文本所产生的视频完美地展示了文本所表达的含义,并且视频的质量非常出色。除了描述的主体内容外,视频还展示了与天气和时间相关的光影效果,增添了画面的层次和真实感。

Sora 除了根据文本生成视频,还可有以下几种生成视频的方式:

  • 图像生成视频:
    • 图像
    • 视频
  • 扩展生成的视频:
    • 视频1
    • 视频2
  • 改变视频风格:
    • 改变前
    • 改变后
  • 连接视频:
    • 视频1
    • 视频2
    • 连接后

扩展能力

3D 一致性

Sora 还可以在单个生成的视频中创建多个镜头,准确地保留视频主体和视频的风格,使得视频主体可以跟随环境的变化而一同变化。

如下这个视频所示,视频从头到尾都围绕着两个人物,当周围场景变换时,两个主体人物也随之自然地调整位置和距离。在切换回大远景时,视频的主题也会自然地从人物转换为城市景观,完美地保持了连贯性和流畅度。

视频地址

image.png

远程相干性和物体持久性

Sora 也有处理空间物体依赖性的能力,保持物体在短视频或长视频中的空间关系,如下图所示,虽然场景在不断的进行,但是窗边的斑点狗并不会因为人物的穿行而消失或者覆盖人物。

视频地址

image.png

与世界交互性

Sora 还可呈现出视频中物体的变化状态,如下图所示,在被咬过的汉堡上能够成功的出现咬掉的痕迹:

视频地址

image.png

Sora 的局限性

  • 不能准确模拟许多基本相互作用的物理过程。
  • 与物体的交互并不总是产生对象状态的正确变化。
  • 混淆提示空间细节,例如混淆左右。

现状

文生视频还处在开发并且测试的阶段,基于安全考虑,目前 Sora 还是仅仅是邀请 “red teamers” 也就是对抗性角色领域的专家来对 Sora 进行安全测试。

并且还会和各个领域的政策制定者,避免 Sora 技术的滥用和可能带来的不良影响。

总结

  • 了解 Sora 的能力。

  • 了解 Sora 的局限性。

  • 了解 Sora 的安全问题。

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
834 0
|
存储 人工智能 算法
AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)
AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)
878 0
|
6月前
|
编解码 人工智能 自然语言处理
AIGC基础模型——扩散模型(Diffusion Model)
【1月更文挑战第23天】AIGC基础模型——扩散模型(Diffusion Model)
432 1
AIGC基础模型——扩散模型(Diffusion Model)
|
14天前
|
机器学习/深度学习 编解码 自然语言处理
文生图大模型
DALL·E 是由 OpenAI 开发的基于深度学习的图像生成模型,能够根据文本描述生成原创图像。从 2021 年初的 DALL·E 到 2022 年的 DALL·E 2,再到最新的 DALL·E 3,其功能不断升级,包括生成、扩展、修改图像及生成变体图像。DALL·E 3 在提示优化、清晰度和多风格支持方面进行了增强,广泛应用于定制图像生成、虚拟设定、产品设计和广告营销等领域。
|
3月前
|
机器学习/深度学习 人工智能 编解码
AI文生图模型
8月更文挑战第16天
|
3月前
|
机器学习/深度学习 人工智能 编解码
|
3月前
|
人工智能 编解码 自然语言处理
AI文生图模型DALL·E 3
8月更文挑战第15天
|
3月前
|
机器学习/深度学习 JSON API
【机器学习】GLM-4V:图片识别多模态大模型(MLLs)初探
【机器学习】GLM-4V:图片识别多模态大模型(MLLs)初探
150 0
|
5月前
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
52 0
|
6月前
|
编解码 人工智能 自然语言处理
七火山发布Etna文生视频模型
【2月更文挑战第17天】七火山发布Etna文生视频模型
845 2
七火山发布Etna文生视频模型