Sora - 探索AI视频模型的无限可能

简介: Sora - 探索AI视频模型的无限可能

前言

随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技术,引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。


一、概念介绍

       2024年2月16日,OpenAI 发布了 “文生视频”(text-to-video)的大模型工具,Sora(利用自然语言描述,生成视频)。这个消息一经发出,全球社交主流媒体平台以及整个世界都再次被 OpenAI 震撼了。AI 视频的高度一下子被 Sora 拉高了,要知道 Runway Pika 等文生视频工具,都还在突破几秒内的连贯性,而 Sora 已经可以直接生成长达60s的一镜到底视频,要知道目前Sora还没有正式发布,就已经能达到这个效果。


       Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。


       Sora 有别于其他 AI 视频模型的优势在于,既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。


       Sora 采用类似于 GPT-4 对文本令牌进行操作的方式来处理视频 “补丁” 。其关键创新在于将视频帧视为补丁序列,类似于语言模型中的单词令牌,使其能够有效地管理各种视频信息。通过结合文本条件生成,Sora 能够根据文本提示生成上下文相关且视觉上连贯的视频。


       在原理上,Sora 主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取,将视图信息分解成更小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便 Sora 在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图片进行解码加码,由 Transformer 模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频内容。


       总体而言,Sora 的出现将进一步推动 AI 视频生成和多模态大模型的发展,为内容创作领域带来了新的可能性。

二、发展背景

(一)OpenAI在大模型领域的成功

       2022年底,OpenAI 正式推出 ChatGPT ,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT 是 OpenAI 迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI 的开发重点逐步过渡到图像的生成,Dall-E 模型在生成图像方面也获得了重大突破。


(二)视觉算法的进步

       视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多。


       尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、HeyGen 等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。

三、功能特色

优点

1、功能综述

       Sora 可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频(其他AI视频工具还在突破几秒内的连贯性),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

2、静态图生成视频

       Sora 还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。

3、视频扩展与缺失帧填充

       Sora 能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。

4、连接视频

       可以使用 Sora 连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。

5、其他能力

能力 描述
图像生成 Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。
3D一致 Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。
远距离连贯性
物体持久性
Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。
互动性 Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。
模拟数字世界 Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态。
多机位 Sora可以生成多机位、多角度的视频。

缺点

       Sora 也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。

       例如,在 “五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐” 的场景中,狼的数量会变化,一些凭空出现或消失。在提示词 “篮球穿过篮筐然后爆炸” 中,篮球没有正确被篮筐阻挡。


       OpenAI 表示,Sora 存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有 “硬伤” 。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。

四、技术特点

(一)多帧预测生成

       Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。

(二)特殊架构

       Sora 采用与 GPT 模型相似的 Transformer 架构,OpenAI 用 Transformer 结构替代 Diffusion 模型中常用的 U-Net 结构,提升了原来 Diffusion 模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础。Transformer 架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力。但为了解决 Transformer 架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像。

(三)重述提示词

       Sora 借鉴 DALL-E 3 的 “重述提示词技术” ,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。

(四)数据表示

       OpenAI 将视频和图像表示为 Patch ,类似于 GPT 中的 token,这种统一的数据表示方式使得 Sora 能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性。

(五)原生规模训练

    Sora采用 “原生规模训练” ,过往的图像和视频生成通常会将视频调整为标准大小,但这样会失去视频的原始长宽比和细节,而原生规模的训练方法可以带来更好的效果。Sora 可以对各种尺寸和纵横比的视频进行采样,允许直接为不同尺寸的设备创建内容,并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比,Sora 可以生成更完整、更美观的视频。

五、应用场景

场景一:广告制作

       像下年这种酷炫的广告图(视频)以后只需要有创意,借用工具生成就可以了,能显著减少拍摄和后期制作成本。过去广告物料、人员、拍摄、建模、3D驱动、后期制作一大堆的成本都可以节省下来。

场景二:电影、游戏、活动的预告片

       基于已有视频/图片生成一致性连贯性的酷炫视频。在电影或者一些大型活动的预告片中,可以起到非常爆炸性的效果。

好莱坞电影预告

场景三:自媒体内容

       结合现在 LLM 的分镜头脚本制作能力,然后利用 Sora 快速生成吸可以极大的节省内容产出的时间并且保障内容质量,未来创意会越来越之前,会使用 AIGC 工具变得越来越有竞争力。


场景四:历史、重要事件重现

       这个场景会非常有意义,过去存在大量的文本内容,想要重现不管是3D建模、CG动画还是真人影视拍摄成本都过高,有了 Sora 模型可以大规模的应用推广。

加州淘金热

场景五:文旅宣传

       这个和上面类似了,绝对是个非常好的应用场景。

image.png

中国舞龙

六、社会影响

(一)价值意义

      未来,AI 自动创作将深刻影响各行业,特别是在处理热点话题的 “时效性覆盖” 方面,AIGC 的效率将成为竞争的关键。竞争将主要体现在谁能更有效地驾驭 AI 的能力,尤其是像 Sora 这样强大的 AI 生产工具。未来可能实现 “扔一部小说、出一部大片” 的情景,Sora 已经展示了生成长达1分钟视频的能力,包括一镜到底、多角度切换等多样化特点。其视频能够运用景物、表情和色彩等元素,传达出各种情感色彩,如孤独、繁华、呆萌等。


       多模态模型的应用也在2024年将达到巅峰,对影视、直播、媒体、广告、动漫、艺术设计等多个行业产生深远影响。在当前短视频时代,Sora 已经可以承担短视频的摄影、导演和剪辑等任务。未来,Sora 生成的多种用途视频将对短视频、直播、影视、动漫、广告等行业产生深远的影响。


       在短视频创作领域,Sora 有望降低短剧制作的综合成本,解决 “重制作而轻创作” 的问题。这将使短剧制作的重心回归高质量剧本内容创作,对创作者的构思能力提出更高要求。为企业降低成本、提高效益,广告制作公司可以通过 Sora 生成符合品牌需求的广告视频,从而显著减少拍摄和后期制作成本。游戏和动画公司也能够利用 Sora 直接生成游戏场景和角色动画,降低3D模型和动画制作的成本。通过节省下来的成本,企业可以提升产品和服务质量,或进行技术创新,从而推动生产力的进一步提升。


       若说2023年是全球 AI 大模型大爆发的一年,是图文生成元年,那么2024年将迎来 AI 视频生成和多模态大模型的元年。从 ChatGPT 到 Sora ,AI 正在逐步改变每个个体和每个行业的现实,这也加快了 AGI 的实现。

(二)产业格局

1、估值上涨

       Sora 发布后,OpenAI 的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时,受 Sora 发布的影响,美国图片供应商 Shutterstock 的股价大跌。


       在中国,龙年开市第一天,Sora 相关概念全线 “爆发” ,会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨,多家公司回应称,将根据自身业务特点,在文生视频技术落地、Sora 应用等方面寻找突破入口。


2、生产变革

       浙商证券预测,Sora 及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用 AI 工具辅助生产,UGC(用户生成内容)将借助 AI 工具逐步替代PGC。此间,AI 生成视频工具的商业化将提速。


       Sora 可生成一段长达60秒的视频,远超市面同类 AI 产品视频生成时长,60秒的视频时长,已经超过抖音等短视频平台的平均视频时长,Sora 的诞生也为以后短视频平台的内容生产提供了更大的可能性。


(三)职业取代

       截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及 OpenAI 员工获得了 Sora 访问权限,他们也已开始在社交平台不断晒出使用 Sora 生成的新作品,为人们展示AI生成视频的创意可能。许多网友称 “不少人要丢工作了” ,甚至有人开始 “悼念” 一整个素材行业。

       截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及 OpenAI 员工获得了 Sora 访问权限,他们也已开始在社交平台不断晒出使用 Sora 生成的新作品,为人们展示AI生成视频的创意可能。许多网友称 “不少人要丢工作了” ,甚至有人开始 “悼念” 一整个素材行业。


总结

       随着人工智能(AI)技术的迅猛发展,特别是像 Sora 这样的视频模型,其在内容生成、编辑和传播方面的应用逐渐广泛,引发了对于伦理与创意的深刻思考。


       Sora 对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃,也被认为是实现通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展 Sora 等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术。Sora 的推出让 AIGC(生成式人工智能)再度成为行业焦点,能否彻底 “颠覆” 行业也成为舆论议论的中心。


       技术创新是推动社会进步的重要动力,但与此同时,我们也必须关注其可能带来的伦理道德挑战。在 Sora-AI 等视频模型的应用中,这种平衡尤为重要。一方面,这些模型能显著提高内容生成的效率,推动创意产业的发展;另一方面,我们也需警惕其可能带来的版权侵犯、隐私泄露等问题。为此,我们需要建立完善的法律法规体系,对 AI 技术的使用进行规范。同时,企业和研究机构也应在开发过程中充分考虑伦理因素,确保技术的健康发展。此外,公众教育和意识提升也是关键,我们需要培养一个更加理性、负责任的 AI 使用氛围。

目录
相关文章
|
8天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
373 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
135 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
11天前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
132 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
218 8
|
19天前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
293 14
|
21天前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
74 1
|
29天前
|
人工智能 监控 Kubernetes
稳定支撑大规模模型调用,携程旅游的 AI 网关实践
为了进一步提升服务水平和服务质量,携程很早就开始在人工智能大模型领域进行探索。而随着工作的深入,大模型服务的应用领域不断扩大,公司内部需要访问大模型服务的应用也越来越多,不可避免的就遇到了几个问题,我们自然就会想到使用网关来对这些服务接入进行统一管理,并增加各种切面上的流量治理功能。
140 36
|
9天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
|
9天前
|
数据采集 人工智能 前端开发
Playwright与AI智能体的网页爬虫创新应用
厌倦重复测试与低效爬虫?本课程带您掌握Playwright自动化工具,并融合AI大模型构建智能体,实现网页自主分析、决策与数据提取,完成从脚本执行到智能架构的能力跃升。
|
9天前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。

热门文章

最新文章